ბენჩმარკები

All Language Understanding Code & Reasoning Vision Multimodal Safety & Alignment Domain-Specific Speech & Audio General Performance

EEE-Bench

EEE-Bench არის შეფასების კომპლექტი, რომელიც შექმნილია AI მოდელების სიზუსტის შესაფასებლად სპეციალიზებულ ტექნიკურ სფეროებში. ის ფოკუსირდება ინჟინერიაზე, ენერგე...

Benchmark

MR-Ben: A Meta-Reasoning Benchmark

MR-Ben არის ღია კოდის შეფასების კომპლექტი, რომელიც შექმნილია დიდი ენობრივი მოდელების (LLMs) მეტა-განსჯის და სისტემური-2 (system-2) ტიპის აზროვნების შესაძლებლ...

Benchmark

SimpleBench

SimpleBench არის მრავალმხრივი ტექსტური ბენჩმარკი, რომელიც შექმნილია დიდი ენობრივი მოდელების (LLMs) შეფასების მიზნით, რაც შეეხება მიზეზების გაგებას, სოციალური...

Benchmark

EffiBench

EffiBench არის ბენჩმარკების ლიდერბორდი, რომელიც ჰოსტდება Hugging Face-ზე და აფასებს AI მოდელების ეფექტიანობას. ის ზომავს ორ საკვანძო მაჩვენებელს: შესრულების...

Benchmark

Indic LLM Leaderboard

Indic LLM Leaderboard არის მრავალენოვანი შეფასების ბენჩმარკი, რომელიც CognitiveLab-მა 2024 წელს შექმნა, რათა შეეფასებინა დიდი ენობრივი მოდელების მუშაობა ინგლ...

Benchmark

Indic LLM Arena

Indic LLM Arena არის საზოგადოებრივად დაფინანსებული, ადამიანის ჩართულობით შექმნილი ლიდერბორდი, რომელიც შეიქმნა AI4Bharat-ის მიერ IIT Madras-ში, გაშვებული 2025...

Benchmark

Geekbench AI Benchmark

Geekbench AI არის მრავალპლატფორმიანი ბენჩმარკი, რომელიც შექმნილია Primate Labs-ის მიერ და ზომავს AI-ის ინფერენციის მუშაობას მობილურ და ტაბლეტ მოწყობილობებზე,...

Benchmark

AI BENCHY Leaderboard

AI BENCHY Leaderboard არის მრავალენოვანი ბენჩმარკის პლატფორმა, რომელიც აფასებს და აჯგუფებს AI ენობრივ მოდელებს რვა ტესტ კატეგორიაში, მათ შორის ზოგადი ინტელექ...

Benchmark

lm-evaluation-harness-pt

lm-evaluation-harness-pt არის პორტუგალიურენოვანი შეფასების კომპლექტი, რომელიც არის EleutherAI-ის lm-evaluation-harness-ის ფორკი. ის შემუშავებულია eduagarcia-...

Benchmark

ARC Prize Leaderboard

ARC Prize Leaderboard არის საჯარო ბენჩმარკინგის რესურსი, რომელსაც ინარჩუნებს ARC Prize Foundation და რომელიც აკონტროლებს AI სისტემების მუშაობას ARC-AGI-1 და...

Benchmark

MASK

MASK (Model Alignment between Statements and Knowledge) არის ბენჩმარკი, რომელიც შეიქმნა Scale AI-ის მიერ Center for AI Safety (CAIS)-თან პარტნიორობით 2025 წე...

Benchmark

LiveCodeBench

LiveCodeBench არის დაბინძურებისგან თავისუფალი ბენჩმარკი, რომელიც შექმნილია დიდი ენობრივი მოდელების შესაფასებლად პროგრამირების ამოცანებში, ისეთი პრობლემების გ...

Benchmark

Aider LLM Leaderboards

Aider LLM Leaderboards არის ბენჩმარკი, რომელიც შექმნილია დიდი ენობრივი მოდელების შესაფასებლად მათი უნარის მიხედვით, დაწერონ და ჩაასწორონ კოდი ადამიანის ჩარევ...

Benchmark

SWE-bench

SWE-bench არის ბენჩმარკი, რომელიც შექმნეს Princeton University-მ და Stanford University-მ, რათა შეფასდეს AI სისტემების უნარი რეალურ სამყაროში არსებული პროგრა...

Benchmark

Open LLM Leaderboard

Open LLM Leaderboard არის საჯარო ბენჩმარკინგის პლატფორმა, რომელიც Hugging Face-მა 2023 წელს შექმნა და რომელიც თვალყურს ადევნებს ღია კოდის დიდი ენობრივი მოდელ...

Benchmark

GAIA Benchmark

GAIA (General AI Assistants) არის ინგლისურენოვანი ბენჩმარკი, რომელიც შექმნილია AI ასისტენტების რეალურ სამყაროში მსჯელობისა და დავალებების შესრულების შესაძლებ...

Benchmark

SEAL Showdown

SEAL Showdown არის Scale AI-ის მიერ შექმნილი ადამიანის პრეფერენციის ლიდერბორდი, რომელიც რეალური მომხმარებლების მიერ გამჭვირვალე, ორგანული წყვილური ხმის მიცემ...

Benchmark