EEE-Bench
EEE-Bench er et evalueringssetup, der er designet til at vurdere nøjagtigheden af AI-modeller inden for specialiserede tekniske domæner. Det fokuserer på ing...
Benchmark
EEE-Bench er et evalueringssetup, der er designet til at vurdere nøjagtigheden af AI-modeller inden for specialiserede tekniske domæner. Det fokuserer på ing...
Benchmark
MR-Ben er et open-source evalueringssæt, der er designet til at vurdere evner til metabegrundelse og system-2-tænkning i store sprogmodeller (LLM’er). Det må...
Benchmark
SimpleBench er et tekstbenchmark med multiple choice, designet til at evaluere store sprogmodeller (LLM’er) inden for ræsonnement, social intelligens og spro...
Benchmark
EffiBench er en benchmark-leaderboard, der hostes på Hugging Face, og som vurderer effektiviteten af AI-modeller. Den måler to centrale præstationsmål: eksek...
Benchmark
Indic LLM Leaderboard er en flersproget evalueringsbenchmark, der blev oprettet af CognitiveLab i 2024 for at vurdere præstationen af store sprogmodeller på...
Benchmark
Indic LLM Arena er en crowdsourcet, menneske-i-loopet rangliste udviklet af AI4Bharat ved IIT Madras, lanceret i 2025 for at evaluere store sprogmodeller på...
Benchmark
Geekbench AI er et cross-platform benchmark udviklet af Primate Labs, der måler AI-inferensydelse på mobile og tablet-enheder, der kører Android og iOS. Det...
Benchmark
AI BENCHY Leaderboard er en flersproget benchmarkplatform, der evaluerer og rangerer AI-sprogmodeller på tværs af otte testkategorier, herunder generel intel...
Benchmark
Danoliterate er et benchmark-evalueringssystem udviklet af DTU Compute til vurdering af generative sprogmodellers evner på dansk. Systemet er designet til at...
Benchmark
The Benchmark Project er et dansk evalueringsprojekt udviklet af Centre for Language Technology ved Københavns Universitet, med Bolette Sandford Pedersen som...
Benchmark
lm-evaluation-harness-pt er en portugisksproget evalueringssuite, der er en fork af EleutherAI's lm-evaluation-harness. Den er udviklet af eduagarcia ved Cen...
Benchmark
ARC Prize Leaderboard er en offentlig benchmarkingsressource, der vedligeholdes af ARC Prize Foundation, og som følger AI-systemers ydeevne på benchmarkene A...
Benchmark
MASK (Model Alignment between Statements and Knowledge) er et benchmark udviklet af Scale AI i samarbejde med Center for AI Safety (CAIS) i 2025 til at evalu...
Benchmark
LiveCodeBench er et kontaminationsfrit benchmark, der er designet til at evaluere store sprogmodeller på programmeringsopgaver ved hjælp af problemer hentet...
Benchmark
Aider LLM Leaderboards er et benchmark, der er designet til at evaluere store sprogmodeller i deres evne til at skrive og redigere kode uden menneskelig indg...
Benchmark
SWE-bench er et benchmark udviklet af Princeton University og Stanford University til at evaluere AI-systemers evne til at løse virkelige software engineerin...
Benchmark
Open LLM Leaderboard er en offentlig benchmarkplatform, der blev oprettet af Hugging Face i 2023, og som følger og sammenligner ydeevnen for open source-stor...
Benchmark
GAIA (General AI Assistants) er et engelsksproget benchmark, der er designet til at evaluere AI-assistenters evne til reel problemløsning og opgavegennemføre...
Benchmark
SEAL Showdown er en menneskelig præference-lederliste udviklet af Scale AI, der rangerer store sprogmodeller baseret på blind, organisk parvis afstemning fra...
Benchmark