ການທົດສອບປະສິດທິພາບ

All Language Understanding Code & Reasoning Vision Multimodal Safety & Alignment Domain-Specific Speech & Audio General Performance

EEE-Bench

EEE-Bench ເປັນຊຸດການປະເມີນ (evaluation suite) ທີ່ອອກແບບເພື່ອວັດຄວາມຖືກຕ້ອງຂອງໂມເດວ AI ໃນຂົງເຂດທາງດ້ານເຕັກນິກທີ່ສະເພາະ. ມັນເນັ້ນໃສ່ການນຳໃຊ້ດ້ານວິສະວະກຳ (engin...

Benchmark

MR-Ben: A Meta-Reasoning Benchmark

MR-Ben ແມ່ນຊຸດປ່ອນປະເພດສໍາລັບການປ່ອນບັນທຶກທີ່ອອກໃສ່ເພື່ອປ່ອນການປ່ອນບັນທຶກທີ່ອອກໃສ່ເພື່ອປ່ອນການປ່ອນບັນທຶກທີ່ອອກໃສ່ເພື່ອປ່ອນການປ່ອນບັນທຶກທີ່ອອກໃສ່ເພື່ອປ່ອນການປ...

Benchmark

SimpleBench

SimpleBench ແມ່ນການທົດສອບຂໍ້ຄວາມແບບຫຼາຍທາງເລືອກ ທີ່ອອກແບບມາເພື່ອປະເມີນໂມເດວພາສາຂະໜາດໃຫຍ່ (LLMs) ໃນດ້ານການໃຫ້ເຫດຜົນ ຄວາມສາມາດດ້ານສັງຄົມ ແລະຄວາມທົນທານຕໍ່ການທ້າ...

Benchmark

EffiBench

EffiBench ແມ່ນລາຍຊື່ການຈັດອັນດັບ (benchmark leaderboard) ທີ່ເປີດໃຫ້ໃຊ້ງານຢູ່ເທິງ Hugging Face ທີ່ປະເມີນຄວາມມີປະສິດທິພາບຂອງໂມເດວ AI. ມັນວັດແທກຕົວຊີ້ວັດຜົນສຳຄັ...

Benchmark

Indic LLM Leaderboard

Indic LLM Leaderboard ແມ່ນຕະຕິດຕາຕິດສະຖານທີ່ປ່ອນລາຍງານສຽງສະຖານທີ່ສໍາລັບການປ່ອນລາຍງານສຽງສະຖານທີ່ສໍາລັບການປ່ອນລາຍງານສຽງສະຖານທີ່ສໍາລັບການປ່ອນລາຍງານສຽງສະຖານທີ່ສໍ...

Benchmark

Indic LLM Arena

Indic LLM Arena ແມ່ນສະຖານທີ່ລະດັບຜູ້ໃຊ້ງານທີ່ຖືກສ້າງຂຶ້ນໂດຍ AI4Bharat ທີ່ IIT Madras, ຖືກແລ່ນໃນປີ 2025 ສໍາລັບປ່ອນລະດັບສິນຄ້າພາສາໃຫຍ່ໃນພາສາອິນເດຍ, ບັນດາບັດທິບ...

Benchmark

Geekbench AI Benchmark

Geekbench AI ແມ່ນເຄື່ອງມືທົດສອບມາດຕະຖານ (benchmark) ຂ້າມແພລດຟອມທີ່ພັດທະນາໂດຍ Primate Labs ທີ່ວັດແທກຄວາມສາມາດການປະມວນผลຂອງ AI (AI inference) ໃນອຸປະກອນມືຖື ແລະ...

Benchmark

AI BENCHY Leaderboard

AI BENCHY Leaderboard ແມ່ນແພດຟອດທົດສອບຫຼາຍພາສາທີ່ປ່ອນແບບການປະເມີນແລະຈັດລຽງແບບຈິດທີ່ສໍາລັບແບບພາສາ AI ຕາມແບບທົດສອບແປດສິບແບບ, ລວມທັງ General Intelligence, Tool...

Benchmark

lm-evaluation-harness-pt

lm-evaluation-harness-pt ແມ່ນຊຸດການປະເມີນຜົນພາສາປອກຕຸຍທີ່ຖືກແຍກອອກ (fork) ຈາກ lm-evaluation-harness ຂອງ EleutherAI, ພັດທະນາໂດຍ eduagarcia ທີ່ສູນຄວາມເລີດດ້ານ...

Benchmark

ARC Prize Leaderboard

ຕາຕະລາງຜູ້ນຳ ARC Prize ແມ່ນແຫຼ່ງອ້າງອີງການປຽບທຽບສາທາລະນະທີ່ດູແລໂດຍ ARC Prize Foundation ທີ່ຕິດຕາມຜົນການປະຕິບັດຂອງລະບົບ AI ໃນເກນ ARC-AGI-1 ແລະ ARC-AGI-2 ຊຶ່ງຖ...

Benchmark

MASK

MASK (Model Alignment between Statements and Knowledge) ເປັນແບບທົດສອບທີ່ພັດທະນາໂດຍ Scale AI ຮ່ວມມືກັບ Center for AI Safety (CAIS) ໃນປີ 2025 ເພື່ອປະເມີນຄວາມຊື...

Benchmark

LiveCodeBench

LiveCodeBench ເປັນແບບທົດສອບທີ່ບໍ່ມີການປົນເປື້ອນ ອອກແບບມາເພື່ອປະເມີນໂມເດວພາສາຂະໜາດໃຫຍ່ໃນວຽກການຂຽນໂຄດ ໂດຍໃຊ້ບັນຫາທີ່ມາຈາກ LeetCode, AtCoder, ແລະ CodeForces. ມັ...

Benchmark

Aider LLM Leaderboards

Aider LLM Leaderboards ແມ່ນເກນວັດຜົນ (benchmark) ທີ່ອອກແບບມາເພື່ອປະເມີນໂມເດວພາສາຂະໜາດໃຫຍ່ (large language models) ໃນຄວາມສາມາດການຂຽນ ແລະ ແກ້ໄຂໂຄດໂດຍບໍ່ມີການແຊ...

Benchmark

SWE-bench

SWE-bench ແມ່ນແບບທົດສອບ (benchmark) ທີ່ພັດທະນາໂດຍ Princeton University ແລະ Stanford University ເພື່ອປະເມີນຄວາມສາມາດຂອງລະບົບ AI ໃນການແກ້ໄຂວຽກງານວິສະວະກຳຊອບແວທ...

Benchmark

Open LLM Leaderboard

ລາຍຊື່ຜູ້ນຳ Open LLM (Open LLM Leaderboard) ແມ່ນແພລດຟອມການທົດສອບປຽບທຽບສາທາລະນະທີ່ສ້າງໂດຍ Hugging Face ໃນປີ 2023 ທີ່ຕິດຕາມ ແລະ ປຽບທຽບຜົນການເຮັດວຽກຂອງໂມເດວພາສາ...

Benchmark

GAIA Benchmark

GAIA (General AI Assistants) ແມ່ນການທົດສອບ (benchmark) ພາສາອັງກິດ ທີ່ອອກແບບມາເພື່ອປະເມີນຄວາມສາມາດໃນການໃຫ້ເຫດຜົນໃນໂລກຈິງ ແລະຄວາມສາມາດໃນການຈັດການວຽກງານຂອງຜູ້ຊ່...

Benchmark

SEAL Showdown

SEAL Showdown ແມ່ນສະດັບຄະແນນຄວາມເລືອກຂອງຄົນທີ່ພັດທະນາໂດຍ Scale AI ທີ່ຈັດອັນດັບແບບລະບຽບສຳລັບລະບົບພາສາໃຫຍ່ຕາມຄວາມເລືອກສູງສຸດຈາກການໃຊ້ງານຈິງ. ນັກປະເມີນຈະເປັນຄວາ...

Benchmark