EEE-Bench
EEE-Bench ir novērtēšanas komplekts, kas izstrādāts, lai pārbaudītu AI modeļu precizitāti specializētās tehniskās jomās. Tas koncentrējas uz inženieriju, ene...
Benchmark
EEE-Bench ir novērtēšanas komplekts, kas izstrādāts, lai pārbaudītu AI modeļu precizitāti specializētās tehniskās jomās. Tas koncentrējas uz inženieriju, ene...
Benchmark
MR-Ben ir atvērtā pirmkoda novērtēšanas komplekts, kas izstrādāts, lai novērtētu meta-spriešanas un 2. sistēmas domāšanas spējas lielajos valodu modeļos (LLM...
Benchmark
SimpleBench ir vairāku izvēļu tekstu novērtējums, kas izstrādāts, lai novērtētu lielos valodas modeļus (LLM) attiecībā uz loģisko domāšanu, sociālo inteliģen...
Benchmark
EffiBench ir Hugging Face mitināta etalonvērtējumu līderu tabula, kas novērtē AI modeļu efektivitāti. Tā mēra divus galvenos veiktspējas rādītājus: izpildes...
Benchmark
Indic LLM līderu saraksts ir daudzvalodu novērtēšanas etalons, ko 2024. gadā izveidoja CognitiveLab, lai novērtētu lielo valodu modeļu veiktspēju angļu valod...
Benchmark
Indic LLM Arena ir pūļa avotos balstīts, cilvēka iesaistīts līderu saraksts, ko izstrādājusi AI4Bharat IIT Madras, uzsākts 2025. gadā, lai novērtētu lielos v...
Benchmark
Geekbench AI ir starpplatformu etalons, ko izstrādājusi Primate Labs, un kas mēra AI secināšanas (inference) veiktspēju mobilajās un planšetdatoru ierīcēs, k...
Benchmark
AI BENCHY reitinga platforma ir daudzvalodu novērtēšanas platforma, kas vērtē un rangē AI valodas modeļus astoņās testu kategorijās, tostarp vispārējā inteli...
Benchmark
lm-evaluation-harness-pt ir portugāļu valodas novērtēšanas komplekts, kas ir atzars no EleutherAI lm-evaluation-harness, izstrādāts eduagarcia vadībā AI izci...
Benchmark
ARC Prize līderu saraksts ir publisks salīdzinošās novērtēšanas resurss, ko uztur ARC Prize Foundation, un tas izseko AI sistēmu sniegumu ARC-AGI-1 un ARC-AG...
Benchmark
MASK (Model Alignment between Statements and Knowledge) ir etalons, ko 2025. gadā izstrādāja Scale AI sadarbībā ar Center for AI Safety (CAIS), lai novērtētu...
Benchmark
LiveCodeBench ir piesārņojumu nesaturošs etalons, kas izstrādāts, lai novērtētu lielos valodas modeļus programmēšanas uzdevumos, izmantojot problēmas, kas ie...
Benchmark
Aider LLM Leaderboards ir etalons, kas izstrādāts, lai novērtētu lielos valodu modeļus pēc to spējas rakstīt un rediģēt kodu bez cilvēka iejaukšanās. Tas izm...
Benchmark
SWE-bench ir etalons, ko izstrādājušas Prinstonas Universitāte un Stenfordas Universitāte, lai novērtētu AI sistēmu spēju atrisināt reālas programmatūras inž...
Benchmark
Open LLM Leaderboard ir publiska etalonuzdevumu (benchmark) platforma, ko 2023. gadā izveidoja Hugging Face, un kas apkopo un salīdzina atvērtā pirmkoda liel...
Benchmark
GAIA (General AI Assistants) ir angļu valodā izstrādāts etalons, kas paredzēts, lai novērtētu AI palīgu reālās pasaules spriešanas un uzdevumu izpildes spēja...
Benchmark
SEAL Showdown ir cilvēku priekšroku reitingu sistēma, ko izstrādājusi Scale AI, kas rangē lielos valodas modeļus, pamatojoties uz aklu, organisku pāru balsoš...
Benchmark