ბენჩმარკები

EEE-Bench

EEE-Bench

EEE-Bench არის შეფასების კომპლექტი, რომელიც შექმნილია AI მოდელების სიზუსტის შესაფასებლად სპეციალიზებულ ტექნიკურ სფეროებში. ის ფოკუსირდება ინჟინერიაზე, ენერგე...

Benchmark
MR-Ben: A Meta-Reasoning Benchmark

MR-Ben: A Meta-Reasoning Benchmark

MR-Ben არის ღია კოდის შეფასების კომპლექტი, რომელიც შექმნილია დიდი ენობრივი მოდელების (LLMs) მეტა-განსჯის და სისტემური-2 (system-2) ტიპის აზროვნების შესაძლებლ...

Benchmark
SimpleBench

SimpleBench

SimpleBench არის მრავალმხრივი ტექსტური ბენჩმარკი, რომელიც შექმნილია დიდი ენობრივი მოდელების (LLMs) შეფასების მიზნით, რაც შეეხება მიზეზების გაგებას, სოციალური...

Benchmark
EffiBench

EffiBench

EffiBench არის ბენჩმარკების ლიდერბორდი, რომელიც ჰოსტდება Hugging Face-ზე და აფასებს AI მოდელების ეფექტიანობას. ის ზომავს ორ საკვანძო მაჩვენებელს: შესრულების...

Benchmark
Indic LLM Leaderboard

Indic LLM Leaderboard

Indic LLM Leaderboard არის მრავალენოვანი შეფასების ბენჩმარკი, რომელიც CognitiveLab-მა 2024 წელს შექმნა, რათა შეეფასებინა დიდი ენობრივი მოდელების მუშაობა ინგლ...

Benchmark
Indic LLM Arena

Indic LLM Arena

Indic LLM Arena არის საზოგადოებრივად დაფინანსებული, ადამიანის ჩართულობით შექმნილი ლიდერბორდი, რომელიც შეიქმნა AI4Bharat-ის მიერ IIT Madras-ში, გაშვებული 2025...

Benchmark
Geekbench AI Benchmark

Geekbench AI Benchmark

Geekbench AI არის მრავალპლატფორმიანი ბენჩმარკი, რომელიც შექმნილია Primate Labs-ის მიერ და ზომავს AI-ის ინფერენციის მუშაობას მობილურ და ტაბლეტ მოწყობილობებზე,...

Benchmark
AI BENCHY Leaderboard

AI BENCHY Leaderboard

AI BENCHY Leaderboard არის მრავალენოვანი ბენჩმარკის პლატფორმა, რომელიც აფასებს და აჯგუფებს AI ენობრივ მოდელებს რვა ტესტ კატეგორიაში, მათ შორის ზოგადი ინტელექ...

Benchmark
lm-evaluation-harness-pt

lm-evaluation-harness-pt

lm-evaluation-harness-pt არის პორტუგალიურენოვანი შეფასების კომპლექტი, რომელიც არის EleutherAI-ის lm-evaluation-harness-ის ფორკი. ის შემუშავებულია eduagarcia-...

Benchmark
ARC Prize Leaderboard

ARC Prize Leaderboard

ARC Prize Leaderboard არის საჯარო ბენჩმარკინგის რესურსი, რომელსაც ინარჩუნებს ARC Prize Foundation და რომელიც აკონტროლებს AI სისტემების მუშაობას ARC-AGI-1 და...

Benchmark
MASK

MASK

MASK (Model Alignment between Statements and Knowledge) არის ბენჩმარკი, რომელიც შეიქმნა Scale AI-ის მიერ Center for AI Safety (CAIS)-თან პარტნიორობით 2025 წე...

Benchmark
LiveCodeBench

LiveCodeBench

LiveCodeBench არის დაბინძურებისგან თავისუფალი ბენჩმარკი, რომელიც შექმნილია დიდი ენობრივი მოდელების შესაფასებლად პროგრამირების ამოცანებში, ისეთი პრობლემების გ...

Benchmark
Aider LLM Leaderboards

Aider LLM Leaderboards

Aider LLM Leaderboards არის ბენჩმარკი, რომელიც შექმნილია დიდი ენობრივი მოდელების შესაფასებლად მათი უნარის მიხედვით, დაწერონ და ჩაასწორონ კოდი ადამიანის ჩარევ...

Benchmark
SWE-bench

SWE-bench

SWE-bench არის ბენჩმარკი, რომელიც შექმნეს Princeton University-მ და Stanford University-მ, რათა შეფასდეს AI სისტემების უნარი რეალურ სამყაროში არსებული პროგრა...

Benchmark
Open LLM Leaderboard

Open LLM Leaderboard

Open LLM Leaderboard არის საჯარო ბენჩმარკინგის პლატფორმა, რომელიც Hugging Face-მა 2023 წელს შექმნა და რომელიც თვალყურს ადევნებს ღია კოდის დიდი ენობრივი მოდელ...

Benchmark
GAIA Benchmark

GAIA Benchmark

GAIA (General AI Assistants) არის ინგლისურენოვანი ბენჩმარკი, რომელიც შექმნილია AI ასისტენტების რეალურ სამყაროში მსჯელობისა და დავალებების შესრულების შესაძლებ...

Benchmark
SEAL Showdown

SEAL Showdown

SEAL Showdown არის Scale AI-ის მიერ შექმნილი ადამიანის პრეფერენციის ლიდერბორდი, რომელიც რეალური მომხმარებლების მიერ გამჭვირვალე, ორგანული წყვილური ხმის მიცემ...

Benchmark