Benchmarks

All Language Understanding Code & Reasoning Vision Multimodal Safety & Alignment Domain-Specific Speech & Audio General Performance

EEE-Bench

EEE-Bench er et evalueringssetup, der er designet til at vurdere nøjagtigheden af AI-modeller inden for specialiserede tekniske domæner. Det fokuserer på ing...

Benchmark

MR-Ben: A Meta-Reasoning Benchmark

MR-Ben er et open-source evalueringssæt, der er designet til at vurdere evner til metabegrundelse og system-2-tænkning i store sprogmodeller (LLM’er). Det må...

Benchmark

SimpleBench

SimpleBench er et tekstbenchmark med multiple choice, designet til at evaluere store sprogmodeller (LLM’er) inden for ræsonnement, social intelligens og spro...

Benchmark

EffiBench

EffiBench er en benchmark-leaderboard, der hostes på Hugging Face, og som vurderer effektiviteten af AI-modeller. Den måler to centrale præstationsmål: eksek...

Benchmark

Indic LLM Leaderboard

Indic LLM Leaderboard er en flersproget evalueringsbenchmark, der blev oprettet af CognitiveLab i 2024 for at vurdere præstationen af store sprogmodeller på...

Benchmark

Indic LLM Arena

Indic LLM Arena er en crowdsourcet, menneske-i-loopet rangliste udviklet af AI4Bharat ved IIT Madras, lanceret i 2025 for at evaluere store sprogmodeller på...

Benchmark

Geekbench AI Benchmark

Geekbench AI er et cross-platform benchmark udviklet af Primate Labs, der måler AI-inferensydelse på mobile og tablet-enheder, der kører Android og iOS. Det...

Benchmark

AI BENCHY Leaderboard

AI BENCHY Leaderboard er en flersproget benchmarkplatform, der evaluerer og rangerer AI-sprogmodeller på tværs af otte testkategorier, herunder generel intel...

Benchmark

Danoliterate

Danoliterate er et benchmark-evalueringssystem udviklet af DTU Compute til vurdering af generative sprogmodellers evner på dansk. Systemet er designet til at...

Benchmark

The Benchmark Project

The Benchmark Project er et dansk evalueringsprojekt udviklet af Centre for Language Technology ved Københavns Universitet, med Bolette Sandford Pedersen som...

Benchmark

lm-evaluation-harness-pt

lm-evaluation-harness-pt er en portugisksproget evalueringssuite, der er en fork af EleutherAI's lm-evaluation-harness. Den er udviklet af eduagarcia ved Cen...

Benchmark

ARC Prize Leaderboard

ARC Prize Leaderboard er en offentlig benchmarkingsressource, der vedligeholdes af ARC Prize Foundation, og som følger AI-systemers ydeevne på benchmarkene A...

Benchmark

MASK

MASK (Model Alignment between Statements and Knowledge) er et benchmark udviklet af Scale AI i samarbejde med Center for AI Safety (CAIS) i 2025 til at evalu...

Benchmark

LiveCodeBench

LiveCodeBench er et kontaminationsfrit benchmark, der er designet til at evaluere store sprogmodeller på programmeringsopgaver ved hjælp af problemer hentet...

Benchmark

Aider LLM Leaderboards

Aider LLM Leaderboards er et benchmark, der er designet til at evaluere store sprogmodeller i deres evne til at skrive og redigere kode uden menneskelig indg...

Benchmark

SWE-bench

SWE-bench er et benchmark udviklet af Princeton University og Stanford University til at evaluere AI-systemers evne til at løse virkelige software engineerin...

Benchmark

Open LLM Leaderboard

Open LLM Leaderboard er en offentlig benchmarkplatform, der blev oprettet af Hugging Face i 2023, og som følger og sammenligner ydeevnen for open source-stor...

Benchmark

GAIA Benchmark

GAIA (General AI Assistants) er et engelsksproget benchmark, der er designet til at evaluere AI-assistenters evne til reel problemløsning og opgavegennemføre...

Benchmark

SEAL Showdown

SEAL Showdown er en menneskelig præference-lederliste udviklet af Scale AI, der rangerer store sprogmodeller baseret på blind, organisk parvis afstemning fra...

Benchmark