EEE-Bench
EEE-Bench არის შეფასების კომპლექტი, რომელიც შექმნილია AI მოდელების სიზუსტის შესაფასებლად სპეციალიზებულ ტექნიკურ სფეროებში. ის ფოკუსირდება ინჟინერიაზე, ენერგე...
Benchmark
EEE-Bench არის შეფასების კომპლექტი, რომელიც შექმნილია AI მოდელების სიზუსტის შესაფასებლად სპეციალიზებულ ტექნიკურ სფეროებში. ის ფოკუსირდება ინჟინერიაზე, ენერგე...
Benchmark
MR-Ben არის ღია კოდის შეფასების კომპლექტი, რომელიც შექმნილია დიდი ენობრივი მოდელების (LLMs) მეტა-განსჯის და სისტემური-2 (system-2) ტიპის აზროვნების შესაძლებლ...
Benchmark
SimpleBench არის მრავალმხრივი ტექსტური ბენჩმარკი, რომელიც შექმნილია დიდი ენობრივი მოდელების (LLMs) შეფასების მიზნით, რაც შეეხება მიზეზების გაგებას, სოციალური...
Benchmark
EffiBench არის ბენჩმარკების ლიდერბორდი, რომელიც ჰოსტდება Hugging Face-ზე და აფასებს AI მოდელების ეფექტიანობას. ის ზომავს ორ საკვანძო მაჩვენებელს: შესრულების...
Benchmark
Indic LLM Leaderboard არის მრავალენოვანი შეფასების ბენჩმარკი, რომელიც CognitiveLab-მა 2024 წელს შექმნა, რათა შეეფასებინა დიდი ენობრივი მოდელების მუშაობა ინგლ...
Benchmark
Indic LLM Arena არის საზოგადოებრივად დაფინანსებული, ადამიანის ჩართულობით შექმნილი ლიდერბორდი, რომელიც შეიქმნა AI4Bharat-ის მიერ IIT Madras-ში, გაშვებული 2025...
Benchmark
Geekbench AI არის მრავალპლატფორმიანი ბენჩმარკი, რომელიც შექმნილია Primate Labs-ის მიერ და ზომავს AI-ის ინფერენციის მუშაობას მობილურ და ტაბლეტ მოწყობილობებზე,...
Benchmark
AI BENCHY Leaderboard არის მრავალენოვანი ბენჩმარკის პლატფორმა, რომელიც აფასებს და აჯგუფებს AI ენობრივ მოდელებს რვა ტესტ კატეგორიაში, მათ შორის ზოგადი ინტელექ...
Benchmark
lm-evaluation-harness-pt არის პორტუგალიურენოვანი შეფასების კომპლექტი, რომელიც არის EleutherAI-ის lm-evaluation-harness-ის ფორკი. ის შემუშავებულია eduagarcia-...
Benchmark
ARC Prize Leaderboard არის საჯარო ბენჩმარკინგის რესურსი, რომელსაც ინარჩუნებს ARC Prize Foundation და რომელიც აკონტროლებს AI სისტემების მუშაობას ARC-AGI-1 და...
Benchmark
MASK (Model Alignment between Statements and Knowledge) არის ბენჩმარკი, რომელიც შეიქმნა Scale AI-ის მიერ Center for AI Safety (CAIS)-თან პარტნიორობით 2025 წე...
Benchmark
LiveCodeBench არის დაბინძურებისგან თავისუფალი ბენჩმარკი, რომელიც შექმნილია დიდი ენობრივი მოდელების შესაფასებლად პროგრამირების ამოცანებში, ისეთი პრობლემების გ...
Benchmark
Aider LLM Leaderboards არის ბენჩმარკი, რომელიც შექმნილია დიდი ენობრივი მოდელების შესაფასებლად მათი უნარის მიხედვით, დაწერონ და ჩაასწორონ კოდი ადამიანის ჩარევ...
Benchmark
SWE-bench არის ბენჩმარკი, რომელიც შექმნეს Princeton University-მ და Stanford University-მ, რათა შეფასდეს AI სისტემების უნარი რეალურ სამყაროში არსებული პროგრა...
Benchmark
Open LLM Leaderboard არის საჯარო ბენჩმარკინგის პლატფორმა, რომელიც Hugging Face-მა 2023 წელს შექმნა და რომელიც თვალყურს ადევნებს ღია კოდის დიდი ენობრივი მოდელ...
Benchmark
GAIA (General AI Assistants) არის ინგლისურენოვანი ბენჩმარკი, რომელიც შექმნილია AI ასისტენტების რეალურ სამყაროში მსჯელობისა და დავალებების შესრულების შესაძლებ...
Benchmark
SEAL Showdown არის Scale AI-ის მიერ შექმნილი ადამიანის პრეფერენციის ლიდერბორდი, რომელიც რეალური მომხმარებლების მიერ გამჭვირვალე, ორგანული წყვილური ხმის მიცემ...
Benchmark