बेंचमार्क्स

EEE-Bench

EEE-Bench

EEE-Bench हे विशेष तांत्रिक क्षेत्रांमध्ये AI मॉडेल्सची अचूकता तपासण्यासाठी डिझाइन केलेले मूल्यांकन संच (evaluation suite) आहे. हे अभियांत्रिकी, ऊर्जा आणि पर...

Benchmark
MR-Ben: A Meta-Reasoning Benchmark

MR-Ben: A Meta-Reasoning Benchmark

MR-Ben हा एक ओपन-सोर्स मूल्यांकन संच आहे जो मोठ्या भाषिक मॉडेल्स (LLMs) मधील मेटा-तर्क आणि प्रणाली-2 विचार क्षमतांचे मूल्यांकन करण्यासाठी डिझाइन केलेला आहे....

Benchmark
SimpleBench

SimpleBench

SimpleBench हा बहुपर्यायी मजकूर-आधारित बेंचमार्क आहे, जो मोठ्या भाषा मॉडेल्सचे (LLMs) तर्कशक्ती, सामाजिक बुद्धिमत्ता आणि भाषिक प्रतिकूल परिस्थितींतील स्थैर्य...

Benchmark
EffiBench

EffiBench

EffiBench हा Hugging Face वर होस्ट केलेला एक benchmark leaderboard आहे, जो AI models ची कार्यक्षमता मोजतो. तो दोन महत्त्वाच्या कार्यप्रदर्शन मेट्रिक्सचे मापन...

Benchmark
BhashaBench V1

BhashaBench V1

BhashaBench V1 हा द्विभाषिक मूल्यांकन बेंचमार्क आहे जो इंग्रजी आणि हिंदी या भाषांमधील डोमेन-विशिष्ट ज्ञानावर मोठ्या भाषा मॉडेल्सची चाचणी घेण्यासाठी तयार करण्...

Benchmark
Indic LLM Leaderboard

Indic LLM Leaderboard

Indic LLM Leaderboard हा 2024 मध्ये CognitiveLab ने तयार केलेला बहुभाषिक मूल्यमापन बेंचमार्क आहे, जो English आणि सात Indic भाषा — Kannada, Hindi, Tamil, Telu...

Benchmark
Indic LLM Arena

Indic LLM Arena

Indic LLM Arena हा एक जनसहभागी, मानव-आधारित लीडरबोर्ड आहे जो AI4Bharat ने IIT मद्रास येथे विकसित केला आहे, जो 2025 मध्ये भारतीय भाषांवर, सांस्कृतिक संदर्भ आण...

Benchmark
Geekbench AI Benchmark

Geekbench AI Benchmark

Geekbench AI हे Primate Labs यांनी विकसित केलेले एक क्रॉस-प्लॅटफॉर्म बेंचमार्क आहे, जे Android आणि iOS चालवणाऱ्या मोबाइल आणि टॅबलेट उपकरणांवरील AI इन्फरन्स क...

Benchmark
AI BENCHY Leaderboard

AI BENCHY Leaderboard

AI BENCHY Leaderboard हे बहुभाषिक बेंचमार्क प्लॅटफॉर्म आहे, जे General Intelligence, Tool Calling, Puzzle Solving, Instructions Following आणि Anti-AI Tricks...

Benchmark
lm-evaluation-harness-pt

lm-evaluation-harness-pt

lm-evaluation-harness-pt ही EleutherAI च्या lm-evaluation-harness मधून फोर्क केलेली पोर्तुगीज-भाषेतील मूल्यांकन संचिका आहे. ती ब्राझीलमधील फेडरल युनिव्हर्सिट...

Benchmark
ARC Prize Leaderboard

ARC Prize Leaderboard

ARC Prize Leaderboard हे ARC Prize Foundation द्वारे देखरेख केलेले एक सार्वजनिक बेंचमार्किंग साधन आहे, जे ARC-AGI-1 आणि ARC-AGI-2 या बेंचमार्क्सवर AI प्रणाली...

Benchmark
MASK

MASK

MASK (Model Alignment between Statements and Knowledge) हा 2025 मध्ये Scale AI ने Center for AI Safety (CAIS) यांच्या भागीदारीत विकसित केलेला एक बेंचमार्क आह...

Benchmark
LiveCodeBench

LiveCodeBench

LiveCodeBench हा दूषितीकरणमुक्त बेंचमार्क आहे, जो LeetCode, AtCoder आणि CodeForces येथून घेतलेल्या समस्यांचा वापर करून कोडिंग कार्यांवरील मोठ्या भाषा मॉडेल्स...

Benchmark
Aider LLM Leaderboards

Aider LLM Leaderboards

Aider LLM Leaderboards हे मोठ्या भाषा मॉडेल्सची मानवी हस्तक्षेपाशिवाय कोड लिहिण्याची आणि संपादित करण्याची क्षमता मोजण्यासाठी डिझाइन केलेले बेंचमार्क आहे. यात...

Benchmark
SWE-bench

SWE-bench

SWE-bench हा Princeton University आणि Stanford University यांनी विकसित केलेला एक बेंचमार्क आहे, जो वास्तविक जगातील सॉफ्टवेअर अभियांत्रिकी कार्ये सोडवण्याची A...

Benchmark
Open LLM Leaderboard

Open LLM Leaderboard

ओपन एलएलएम लीडरबोर्ड हा 2023 मध्ये Hugging Face द्वारे तयार केलेला सार्वजनिक बेंचमार्किंग प्लॅटफॉर्म आहे, जो मुक्त-स्रोत मोठ्या भाषा मॉडेल्सची कामगिरी ट्रॅक...

Benchmark
GAIA Benchmark

GAIA Benchmark

GAIA (General AI Assistants) हा इंग्रजी-भाषेतील एक बेंचमार्क आहे, जो सर्वसाधारण क्षेत्रांमध्ये AI सहाय्यकांच्या वास्तविक जगातील तर्कशक्ती आणि कार्य पूर्ण करण...

Benchmark
SEAL Showdown

SEAL Showdown

SEAL Showdown हा Scale AI द्वारे विकसित केलेला मानव प्राधान्य लीडरबोर्ड आहे जो खरे वापरकर्त्यांच्या अंध, सेंद्रिय जोडीदार मतदानावर आधारित मोठ्या भाषिक मॉडेल्...

Benchmark