बेंचमार्क्स

All Language Understanding Code & Reasoning Vision Multimodal Safety & Alignment Domain-Specific Speech & Audio General Performance

EEE-Bench

EEE-Bench हे विशेष तांत्रिक क्षेत्रांमध्ये AI मॉडेल्सची अचूकता तपासण्यासाठी डिझाइन केलेले मूल्यांकन संच (evaluation suite) आहे. हे अभियांत्रिकी, ऊर्जा आणि पर...

Benchmark

MR-Ben: A Meta-Reasoning Benchmark

MR-Ben हा एक ओपन-सोर्स मूल्यांकन संच आहे जो मोठ्या भाषिक मॉडेल्स (LLMs) मधील मेटा-तर्क आणि प्रणाली-2 विचार क्षमतांचे मूल्यांकन करण्यासाठी डिझाइन केलेला आहे....

Benchmark

SimpleBench

SimpleBench हा बहुपर्यायी मजकूर-आधारित बेंचमार्क आहे, जो मोठ्या भाषा मॉडेल्सचे (LLMs) तर्कशक्ती, सामाजिक बुद्धिमत्ता आणि भाषिक प्रतिकूल परिस्थितींतील स्थैर्य...

Benchmark

EffiBench

EffiBench हा Hugging Face वर होस्ट केलेला एक benchmark leaderboard आहे, जो AI models ची कार्यक्षमता मोजतो. तो दोन महत्त्वाच्या कार्यप्रदर्शन मेट्रिक्सचे मापन...

Benchmark

BhashaBench V1

BhashaBench V1 हा द्विभाषिक मूल्यांकन बेंचमार्क आहे जो इंग्रजी आणि हिंदी या भाषांमधील डोमेन-विशिष्ट ज्ञानावर मोठ्या भाषा मॉडेल्सची चाचणी घेण्यासाठी तयार करण्...

Benchmark

Indic LLM Leaderboard

Indic LLM Leaderboard हा 2024 मध्ये CognitiveLab ने तयार केलेला बहुभाषिक मूल्यमापन बेंचमार्क आहे, जो English आणि सात Indic भाषा — Kannada, Hindi, Tamil, Telu...

Benchmark

Indic LLM Arena

Indic LLM Arena हा एक जनसहभागी, मानव-आधारित लीडरबोर्ड आहे जो AI4Bharat ने IIT मद्रास येथे विकसित केला आहे, जो 2025 मध्ये भारतीय भाषांवर, सांस्कृतिक संदर्भ आण...

Benchmark

Geekbench AI Benchmark

Geekbench AI हे Primate Labs यांनी विकसित केलेले एक क्रॉस-प्लॅटफॉर्म बेंचमार्क आहे, जे Android आणि iOS चालवणाऱ्या मोबाइल आणि टॅबलेट उपकरणांवरील AI इन्फरन्स क...

Benchmark

AI BENCHY Leaderboard

AI BENCHY Leaderboard हे बहुभाषिक बेंचमार्क प्लॅटफॉर्म आहे, जे General Intelligence, Tool Calling, Puzzle Solving, Instructions Following आणि Anti-AI Tricks...

Benchmark

lm-evaluation-harness-pt

lm-evaluation-harness-pt ही EleutherAI च्या lm-evaluation-harness मधून फोर्क केलेली पोर्तुगीज-भाषेतील मूल्यांकन संचिका आहे. ती ब्राझीलमधील फेडरल युनिव्हर्सिट...

Benchmark

ARC Prize Leaderboard

ARC Prize Leaderboard हे ARC Prize Foundation द्वारे देखरेख केलेले एक सार्वजनिक बेंचमार्किंग साधन आहे, जे ARC-AGI-1 आणि ARC-AGI-2 या बेंचमार्क्सवर AI प्रणाली...

Benchmark

MASK

MASK (Model Alignment between Statements and Knowledge) हा 2025 मध्ये Scale AI ने Center for AI Safety (CAIS) यांच्या भागीदारीत विकसित केलेला एक बेंचमार्क आह...

Benchmark

LiveCodeBench

LiveCodeBench हा दूषितीकरणमुक्त बेंचमार्क आहे, जो LeetCode, AtCoder आणि CodeForces येथून घेतलेल्या समस्यांचा वापर करून कोडिंग कार्यांवरील मोठ्या भाषा मॉडेल्स...

Benchmark

Aider LLM Leaderboards

Aider LLM Leaderboards हे मोठ्या भाषा मॉडेल्सची मानवी हस्तक्षेपाशिवाय कोड लिहिण्याची आणि संपादित करण्याची क्षमता मोजण्यासाठी डिझाइन केलेले बेंचमार्क आहे. यात...

Benchmark

SWE-bench

SWE-bench हा Princeton University आणि Stanford University यांनी विकसित केलेला एक बेंचमार्क आहे, जो वास्तविक जगातील सॉफ्टवेअर अभियांत्रिकी कार्ये सोडवण्याची A...

Benchmark

Open LLM Leaderboard

ओपन एलएलएम लीडरबोर्ड हा 2023 मध्ये Hugging Face द्वारे तयार केलेला सार्वजनिक बेंचमार्किंग प्लॅटफॉर्म आहे, जो मुक्त-स्रोत मोठ्या भाषा मॉडेल्सची कामगिरी ट्रॅक...

Benchmark

GAIA Benchmark

GAIA (General AI Assistants) हा इंग्रजी-भाषेतील एक बेंचमार्क आहे, जो सर्वसाधारण क्षेत्रांमध्ये AI सहाय्यकांच्या वास्तविक जगातील तर्कशक्ती आणि कार्य पूर्ण करण...

Benchmark

SEAL Showdown

SEAL Showdown हा Scale AI द्वारे विकसित केलेला मानव प्राधान्य लीडरबोर्ड आहे जो खरे वापरकर्त्यांच्या अंध, सेंद्रिय जोडीदार मतदानावर आधारित मोठ्या भाषिक मॉडेल्...

Benchmark