ການທົດສອບປະສິດທິພາບ

EEE-Bench

EEE-Bench

EEE-Bench ເປັນຊຸດການປະເມີນ (evaluation suite) ທີ່ອອກແບບເພື່ອວັດຄວາມຖືກຕ້ອງຂອງໂມເດວ AI ໃນຂົງເຂດທາງດ້ານເຕັກນິກທີ່ສະເພາະ. ມັນເນັ້ນໃສ່ການນຳໃຊ້ດ້ານວິສະວະກຳ (engin...

Benchmark
MR-Ben: A Meta-Reasoning Benchmark

MR-Ben: A Meta-Reasoning Benchmark

MR-Ben ແມ່ນຊຸດປ່ອນປະເພດສໍາລັບການປ່ອນບັນທຶກທີ່ອອກໃສ່ເພື່ອປ່ອນການປ່ອນບັນທຶກທີ່ອອກໃສ່ເພື່ອປ່ອນການປ່ອນບັນທຶກທີ່ອອກໃສ່ເພື່ອປ່ອນການປ່ອນບັນທຶກທີ່ອອກໃສ່ເພື່ອປ່ອນການປ...

Benchmark
SimpleBench

SimpleBench

SimpleBench ແມ່ນການທົດສອບຂໍ້ຄວາມແບບຫຼາຍທາງເລືອກ ທີ່ອອກແບບມາເພື່ອປະເມີນໂມເດວພາສາຂະໜາດໃຫຍ່ (LLMs) ໃນດ້ານການໃຫ້ເຫດຜົນ ຄວາມສາມາດດ້ານສັງຄົມ ແລະຄວາມທົນທານຕໍ່ການທ້າ...

Benchmark
EffiBench

EffiBench

EffiBench ແມ່ນລາຍຊື່ການຈັດອັນດັບ (benchmark leaderboard) ທີ່ເປີດໃຫ້ໃຊ້ງານຢູ່ເທິງ Hugging Face ທີ່ປະເມີນຄວາມມີປະສິດທິພາບຂອງໂມເດວ AI. ມັນວັດແທກຕົວຊີ້ວັດຜົນສຳຄັ...

Benchmark
Indic LLM Leaderboard

Indic LLM Leaderboard

Indic LLM Leaderboard ແມ່ນຕະຕິດຕາຕິດສະຖານທີ່ປ່ອນລາຍງານສຽງສະຖານທີ່ສໍາລັບການປ່ອນລາຍງານສຽງສະຖານທີ່ສໍາລັບການປ່ອນລາຍງານສຽງສະຖານທີ່ສໍາລັບການປ່ອນລາຍງານສຽງສະຖານທີ່ສໍ...

Benchmark
Indic LLM Arena

Indic LLM Arena

Indic LLM Arena ແມ່ນສະຖານທີ່ລະດັບຜູ້ໃຊ້ງານທີ່ຖືກສ້າງຂຶ້ນໂດຍ AI4Bharat ທີ່ IIT Madras, ຖືກແລ່ນໃນປີ 2025 ສໍາລັບປ່ອນລະດັບສິນຄ້າພາສາໃຫຍ່ໃນພາສາອິນເດຍ, ບັນດາບັດທິບ...

Benchmark
Geekbench AI Benchmark

Geekbench AI Benchmark

Geekbench AI ແມ່ນເຄື່ອງມືທົດສອບມາດຕະຖານ (benchmark) ຂ້າມແພລດຟອມທີ່ພັດທະນາໂດຍ Primate Labs ທີ່ວັດແທກຄວາມສາມາດການປະມວນผลຂອງ AI (AI inference) ໃນອຸປະກອນມືຖື ແລະ...

Benchmark
AI BENCHY Leaderboard

AI BENCHY Leaderboard

AI BENCHY Leaderboard ແມ່ນແພດຟອດທົດສອບຫຼາຍພາສາທີ່ປ່ອນແບບການປະເມີນແລະຈັດລຽງແບບຈິດທີ່ສໍາລັບແບບພາສາ AI ຕາມແບບທົດສອບແປດສິບແບບ, ລວມທັງ General Intelligence, Tool...

Benchmark
lm-evaluation-harness-pt

lm-evaluation-harness-pt

lm-evaluation-harness-pt ແມ່ນຊຸດການປະເມີນຜົນພາສາປອກຕຸຍທີ່ຖືກແຍກອອກ (fork) ຈາກ lm-evaluation-harness ຂອງ EleutherAI, ພັດທະນາໂດຍ eduagarcia ທີ່ສູນຄວາມເລີດດ້ານ...

Benchmark
ARC Prize Leaderboard

ARC Prize Leaderboard

ຕາຕະລາງຜູ້ນຳ ARC Prize ແມ່ນແຫຼ່ງອ້າງອີງການປຽບທຽບສາທາລະນະທີ່ດູແລໂດຍ ARC Prize Foundation ທີ່ຕິດຕາມຜົນການປະຕິບັດຂອງລະບົບ AI ໃນເກນ ARC-AGI-1 ແລະ ARC-AGI-2 ຊຶ່ງຖ...

Benchmark
MASK

MASK

MASK (Model Alignment between Statements and Knowledge) ເປັນແບບທົດສອບທີ່ພັດທະນາໂດຍ Scale AI ຮ່ວມມືກັບ Center for AI Safety (CAIS) ໃນປີ 2025 ເພື່ອປະເມີນຄວາມຊື...

Benchmark
LiveCodeBench

LiveCodeBench

LiveCodeBench ເປັນແບບທົດສອບທີ່ບໍ່ມີການປົນເປື້ອນ ອອກແບບມາເພື່ອປະເມີນໂມເດວພາສາຂະໜາດໃຫຍ່ໃນວຽກການຂຽນໂຄດ ໂດຍໃຊ້ບັນຫາທີ່ມາຈາກ LeetCode, AtCoder, ແລະ CodeForces. ມັ...

Benchmark
Aider LLM Leaderboards

Aider LLM Leaderboards

Aider LLM Leaderboards ແມ່ນເກນວັດຜົນ (benchmark) ທີ່ອອກແບບມາເພື່ອປະເມີນໂມເດວພາສາຂະໜາດໃຫຍ່ (large language models) ໃນຄວາມສາມາດການຂຽນ ແລະ ແກ້ໄຂໂຄດໂດຍບໍ່ມີການແຊ...

Benchmark
SWE-bench

SWE-bench

SWE-bench ແມ່ນແບບທົດສອບ (benchmark) ທີ່ພັດທະນາໂດຍ Princeton University ແລະ Stanford University ເພື່ອປະເມີນຄວາມສາມາດຂອງລະບົບ AI ໃນການແກ້ໄຂວຽກງານວິສະວະກຳຊອບແວທ...

Benchmark
Open LLM Leaderboard

Open LLM Leaderboard

ລາຍຊື່ຜູ້ນຳ Open LLM (Open LLM Leaderboard) ແມ່ນແພລດຟອມການທົດສອບປຽບທຽບສາທາລະນະທີ່ສ້າງໂດຍ Hugging Face ໃນປີ 2023 ທີ່ຕິດຕາມ ແລະ ປຽບທຽບຜົນການເຮັດວຽກຂອງໂມເດວພາສາ...

Benchmark
GAIA Benchmark

GAIA Benchmark

GAIA (General AI Assistants) ແມ່ນການທົດສອບ (benchmark) ພາສາອັງກິດ ທີ່ອອກແບບມາເພື່ອປະເມີນຄວາມສາມາດໃນການໃຫ້ເຫດຜົນໃນໂລກຈິງ ແລະຄວາມສາມາດໃນການຈັດການວຽກງານຂອງຜູ້ຊ່...

Benchmark
SEAL Showdown

SEAL Showdown

SEAL Showdown ແມ່ນສະດັບຄະແນນຄວາມເລືອກຂອງຄົນທີ່ພັດທະນາໂດຍ Scale AI ທີ່ຈັດອັນດັບແບບລະບຽບສຳລັບລະບົບພາສາໃຫຍ່ຕາມຄວາມເລືອກສູງສຸດຈາກການໃຊ້ງານຈິງ. ນັກປະເມີນຈະເປັນຄວາ...

Benchmark