Benchmarks

EEE-Bench

EEE-Bench

EEE-Bench er et evalueringssetup, der er designet til at vurdere nøjagtigheden af AI-modeller inden for specialiserede tekniske domæner. Det fokuserer på ing...

Benchmark
MR-Ben: A Meta-Reasoning Benchmark

MR-Ben: A Meta-Reasoning Benchmark

MR-Ben er et open-source evalueringssæt, der er designet til at vurdere evner til metabegrundelse og system-2-tænkning i store sprogmodeller (LLM’er). Det må...

Benchmark
SimpleBench

SimpleBench

SimpleBench er et tekstbenchmark med multiple choice, designet til at evaluere store sprogmodeller (LLM’er) inden for ræsonnement, social intelligens og spro...

Benchmark
EffiBench

EffiBench

EffiBench er en benchmark-leaderboard, der hostes på Hugging Face, og som vurderer effektiviteten af AI-modeller. Den måler to centrale præstationsmål: eksek...

Benchmark
Indic LLM Leaderboard

Indic LLM Leaderboard

Indic LLM Leaderboard er en flersproget evalueringsbenchmark, der blev oprettet af CognitiveLab i 2024 for at vurdere præstationen af store sprogmodeller på...

Benchmark
Indic LLM Arena

Indic LLM Arena

Indic LLM Arena er en crowdsourcet, menneske-i-loopet rangliste udviklet af AI4Bharat ved IIT Madras, lanceret i 2025 for at evaluere store sprogmodeller på...

Benchmark
Geekbench AI Benchmark

Geekbench AI Benchmark

Geekbench AI er et cross-platform benchmark udviklet af Primate Labs, der måler AI-inferensydelse på mobile og tablet-enheder, der kører Android og iOS. Det...

Benchmark
AI BENCHY Leaderboard

AI BENCHY Leaderboard

AI BENCHY Leaderboard er en flersproget benchmarkplatform, der evaluerer og rangerer AI-sprogmodeller på tværs af otte testkategorier, herunder generel intel...

Benchmark
Danoliterate

Danoliterate

Danoliterate er et benchmark-evalueringssystem udviklet af DTU Compute til vurdering af generative sprogmodellers evner på dansk. Systemet er designet til at...

Benchmark
The Benchmark Project

The Benchmark Project

The Benchmark Project er et dansk evalueringsprojekt udviklet af Centre for Language Technology ved Københavns Universitet, med Bolette Sandford Pedersen som...

Benchmark
lm-evaluation-harness-pt

lm-evaluation-harness-pt

lm-evaluation-harness-pt er en portugisksproget evalueringssuite, der er en fork af EleutherAI's lm-evaluation-harness. Den er udviklet af eduagarcia ved Cen...

Benchmark
ARC Prize Leaderboard

ARC Prize Leaderboard

ARC Prize Leaderboard er en offentlig benchmarkingsressource, der vedligeholdes af ARC Prize Foundation, og som følger AI-systemers ydeevne på benchmarkene A...

Benchmark
MASK

MASK

MASK (Model Alignment between Statements and Knowledge) er et benchmark udviklet af Scale AI i samarbejde med Center for AI Safety (CAIS) i 2025 til at evalu...

Benchmark
LiveCodeBench

LiveCodeBench

LiveCodeBench er et kontaminationsfrit benchmark, der er designet til at evaluere store sprogmodeller på programmeringsopgaver ved hjælp af problemer hentet...

Benchmark
Aider LLM Leaderboards

Aider LLM Leaderboards

Aider LLM Leaderboards er et benchmark, der er designet til at evaluere store sprogmodeller i deres evne til at skrive og redigere kode uden menneskelig indg...

Benchmark
SWE-bench

SWE-bench

SWE-bench er et benchmark udviklet af Princeton University og Stanford University til at evaluere AI-systemers evne til at løse virkelige software engineerin...

Benchmark
Open LLM Leaderboard

Open LLM Leaderboard

Open LLM Leaderboard er en offentlig benchmarkplatform, der blev oprettet af Hugging Face i 2023, og som følger og sammenligner ydeevnen for open source-stor...

Benchmark
GAIA Benchmark

GAIA Benchmark

GAIA (General AI Assistants) er et engelsksproget benchmark, der er designet til at evaluere AI-assistenters evne til reel problemløsning og opgavegennemføre...

Benchmark
SEAL Showdown

SEAL Showdown

SEAL Showdown er en menneskelig præference-lederliste udviklet af Scale AI, der rangerer store sprogmodeller baseret på blind, organisk parvis afstemning fra...

Benchmark