Benchmarks

All Language Understanding Code & Reasoning Vision Multimodal Safety & Alignment Domain-Specific Speech & Audio General Performance

EEE-Bench

EEE-Bench ir novērtēšanas komplekts, kas izstrādāts, lai pārbaudītu AI modeļu precizitāti specializētās tehniskās jomās. Tas koncentrējas uz inženieriju, ene...

Benchmark

MR-Ben: A Meta-Reasoning Benchmark

MR-Ben ir atvērtā pirmkoda novērtēšanas komplekts, kas izstrādāts, lai novērtētu meta-spriešanas un 2. sistēmas domāšanas spējas lielajos valodu modeļos (LLM...

Benchmark

SimpleBench

SimpleBench ir vairāku izvēļu tekstu novērtējums, kas izstrādāts, lai novērtētu lielos valodas modeļus (LLM) attiecībā uz loģisko domāšanu, sociālo inteliģen...

Benchmark

EffiBench

EffiBench ir Hugging Face mitināta etalonvērtējumu līderu tabula, kas novērtē AI modeļu efektivitāti. Tā mēra divus galvenos veiktspējas rādītājus: izpildes...

Benchmark

Indic LLM Leaderboard

Indic LLM līderu saraksts ir daudzvalodu novērtēšanas etalons, ko 2024. gadā izveidoja CognitiveLab, lai novērtētu lielo valodu modeļu veiktspēju angļu valod...

Benchmark

Indic LLM Arena

Indic LLM Arena ir pūļa avotos balstīts, cilvēka iesaistīts līderu saraksts, ko izstrādājusi AI4Bharat IIT Madras, uzsākts 2025. gadā, lai novērtētu lielos v...

Benchmark

Geekbench AI Benchmark

Geekbench AI ir starpplatformu etalons, ko izstrādājusi Primate Labs, un kas mēra AI secināšanas (inference) veiktspēju mobilajās un planšetdatoru ierīcēs, k...

Benchmark

AI BENCHY Leaderboard

AI BENCHY reitinga platforma ir daudzvalodu novērtēšanas platforma, kas vērtē un rangē AI valodas modeļus astoņās testu kategorijās, tostarp vispārējā inteli...

Benchmark

lm-evaluation-harness-pt

lm-evaluation-harness-pt ir portugāļu valodas novērtēšanas komplekts, kas ir atzars no EleutherAI lm-evaluation-harness, izstrādāts eduagarcia vadībā AI izci...

Benchmark

ARC Prize Leaderboard

ARC Prize līderu saraksts ir publisks salīdzinošās novērtēšanas resurss, ko uztur ARC Prize Foundation, un tas izseko AI sistēmu sniegumu ARC-AGI-1 un ARC-AG...

Benchmark

MASK

MASK (Model Alignment between Statements and Knowledge) ir etalons, ko 2025. gadā izstrādāja Scale AI sadarbībā ar Center for AI Safety (CAIS), lai novērtētu...

Benchmark

LiveCodeBench

LiveCodeBench ir piesārņojumu nesaturošs etalons, kas izstrādāts, lai novērtētu lielos valodas modeļus programmēšanas uzdevumos, izmantojot problēmas, kas ie...

Benchmark

Aider LLM Leaderboards

Aider LLM Leaderboards ir etalons, kas izstrādāts, lai novērtētu lielos valodu modeļus pēc to spējas rakstīt un rediģēt kodu bez cilvēka iejaukšanās. Tas izm...

Benchmark

SWE-bench

SWE-bench ir etalons, ko izstrādājušas Prinstonas Universitāte un Stenfordas Universitāte, lai novērtētu AI sistēmu spēju atrisināt reālas programmatūras inž...

Benchmark

Open LLM Leaderboard

Open LLM Leaderboard ir publiska etalonuzdevumu (benchmark) platforma, ko 2023. gadā izveidoja Hugging Face, un kas apkopo un salīdzina atvērtā pirmkoda liel...

Benchmark

GAIA Benchmark

GAIA (General AI Assistants) ir angļu valodā izstrādāts etalons, kas paredzēts, lai novērtētu AI palīgu reālās pasaules spriešanas un uzdevumu izpildes spēja...

Benchmark

SEAL Showdown

SEAL Showdown ir cilvēku priekšroku reitingu sistēma, ko izstrādājusi Scale AI, kas rangē lielos valodas modeļus, pamatojoties uz aklu, organisku pāru balsoš...

Benchmark