ໝວດหมู่
ຮູບແບບຫົວຂໍ້
VAANI ແມ່ນຊຸດຂໍ້ມູນສຽງຫຼາຍພາສາຂະໜາດໃຫຍ່ ທີ່ພັດທະນາໂດຍ Indian Institute of Science (IISc), Bangalore ຊຶ່ງມີປະມານ 21,500 ຊົ່ວໂມງຂອງສຽງ ທີ່ເກັບລວບລວມຈາກຜູ້ເວົ້າປະມານ 110,000 ຄົນ ທົ່ວ 120 ເມືອງ/ເຂດ ໃນ 22 ລັດຂອງອິນເດຍ. ມັນຄອບຄຸມ 86 ພາສາ ແລະພາສາຖິ່ນ ທີ່ເວົ້າກັນທົ່ວອິນເດຍ ລວມທັງພາສາທີ່ຖືກກຳນົດສຳຄັນ (scheduled languages) ແລະຫຼາຍຊະນິດພາສາທ້ອງຖິ່ນ ແລະພາສາຂອງຊົນເຜົ່າ ພ້ອມດ້ວຍຄຳຖอดສຽງ (transcribed speech) 835 ຊົ່ວໂມງ.
ຊຸດຂໍ້ມູນນີ້ຖືກອອກແບບເພື່ອຮອງຮັບວຽກງານດ້ານການເວົ້າ ແລະພາສາຫຼາຍປະເພດ ເຊັ່ນ ການຮັບຮູ້ຄຳເວົ້າອັດຕະໂນມັດ (automatic speech recognition), ການສັງເຄາະສຽງຈາກຂໍ້ຄວາມ (text-to-speech synthesis), ການລະບຸຜູ້ເວົ້າ (speaker identification), ການລະບຸພາສາ (language identification), ການປັບປຸງ/ເສີມສຽງ (speech enhancement), ແລະການພັດທະນາໂມເດວພາສາແບບຫຼາຍຮູບແບບ (multimodal language model development). ຖືກປ່ອຍພາຍໃຕ້ລະບົບອະນຸຍາດ CC BY 4.0 ເພື່ອໃຊ້ເປັນຫຼັກໃນການຝຶກອົບຮົມ ແລະການທົດສອບມາດຕະຖານ (benchmarking) ລະບົບ AI ໂດຍສະເພາະ ມີຄວາມເໝາະສົມສຳລັບນັກຄົ້ນຄວ້າ ແລະນັກພັດທະນາທີ່ເຮັດວຽກກັບພາສາອິນເດຍທີ່ມີຂໍ້ມູນຈຳກັດ (low-resource) ແລະພາສາທີ່ບໍ່ຖືກສະແດງ/ບໍ່ຄ່ອຍໄດ້ຮັບການສົນໃຈ (underrepresented).
ພື້ນຫຼັງ ແລະ ການພັດທະນາ
VAANI (ຊຶ່ງໝາຍເຖິງ “ສຽງ” ຫຼື “ການເວົ້າ” ໃນຫຼາຍພາສາຂອງອິນເດຍ) ຖືກສ້າງຂຶ້ນໂດຍ Indian Institute of Science (IISc) ທີ່ Bangalore ເປັນສ່ວນໜຶ່ງຂອງຄວາມພະຍາຍາມເພື່ອແກ້ໄຂຊ່ອງວ່າງທີ່ສຳຄັນໃນຊັບພະຍາກອນຂໍ້ມູນການເວົ້າສຳລັບພາສາຂອງອິນເດຍ. ພູມສັນຖານດ້ານພາສາຂອງອິນເດຍແມ່ນໜຶ່ງໃນທີ່ຫຼາກຫຼາຍທີ່ສຸດໃນໂລກ ໂດຍມີຫຼາຍຮ້ອຍພາສາ ແລະ ພາສາຖິ່ນຫຼາຍພັນພາສາຍ່ອຍ (dialects) ແຕ່ຊຸດຂໍ້ມູນການເວົ້າທີ່ມີຢູ່ສ່ວນໃຫຍ່ມຸ່ງໄປທີ່ພາສາຈຳນວນໜ້ອຍທີ່ມີຂໍ້ມູນພ້ອມດີ. VAANI ຖືກພັດທະນາເພື່ອຂະຫຍາຍຄວາມພ້ອມຂອງຂໍ້ມູນການຝຶກສຳລັບຊ່ອງພາສາທີ່ຍັງຂາດແຄນນີ້ ໂດຍດຳເນີນການເກັບຂໍ້ມູນພາກສະໜາມຂະໜາດໃຫຍ່ຢ່າງລະອຽດ ໃນພື້ນທີ່ທີ່ມີຄວາມແຕກຕ່າງທາງພູມສາດ ແລະ ທາງພາສາຫຼາກຫຼາຍຂອງປະເທດ.
ຂໍ້ມູນຖືກເກັບຈາກຜູ້ເວົ້າປະມານ 110,000 ຄົນ ກະຈາຍຢູ່ 120 ເມືອງ (districts) ໃນ 22 ລັດຂອງອິນເດຍ ຊຶ່ງສະທ້ອນເຖິງຄວາມຕັ້ງໃຈເພື່ອຈັບຄວາມແຕກຕ່າງທາງພາກພື້ນ ແລະ ພາສາຖິ່ນ (dialectal variation) ຢ່າງແທ້ຈິງ ບໍ່ແມ່ນອີງໃສ່ການບັນທຶກໃນສະຕູດິໂອທີ່ຄວບຄຸມ. ຊຸດຂໍ້ມູນຄອບຄຸມ 86 ພາສາ ແລະ ພາສາຖິ່ນ ຕັ້ງແຕ່ພາສາຫຼັກທີ່ຖືກຈັດຢູ່ໃນກຸ່ມພາສາທີ່ມີການກຳນົດ (scheduled languages) ເຊັ່ນ Hindi, Tamil, Telugu, Bengali, Kannada, ແລະ Malayalam ໄປຈົນເຖິງພາສາຖິ່ນຫຼາຍຊະນິດ ແລະ ພາສາຂອງຊົນເຜົ່າ (tribal languages) ລວມທັງ Gondi, Santali, Kurukh, Wancho, ແລະ Tenyidie ແລະອື່ນໆອີກຫຼາຍ.
ອົງປະກອບຊຸດຂໍ້ມູນ ແລະ ຈຸດເດັ່ນ
VAANI ປະກອບດ້ວຍສຽງປະມານ 21,500 ຊົ່ວໂມງ ໂດຍລວມ ເຮັດໃຫ້ເປັນໜຶ່ງໃນຊຸດຂໍ້ມູນການເວົ້າຫຼາຍພາສາທີ່ໃຫຍ່ທີ່ສຸດ ທີ່ສຸມໃສ່ພາສາຂອງອິນເດຍ. ໃນຈຳນວນນີ້ 835 ຊົ່ວໂມງ ໄດ້ຖືກຖອດສຽງເປັນຂໍ້ຄວາມ (transcribed) ເພື່ອໃຫ້ຂໍ້ມູນຂໍ້ຄວາມທີ່ຖືກຕ້ອງ (ground-truth text annotations) ສຳລັບສ່ວນໜຶ່ງຂອງຊຸດຂໍ້ມູນ. ຊຸດຂໍ້ມູນຍັງປະກອບດ້ວຍອົງປະກອບຫຼາຍໂໝດ (multimodal elements) ເຮັດໃຫ້ເໝາະສຳລັບການນຳໃຊ້ນອກເໜືອຈາກວຽກງານການເວົ້າແບບທົ່ວໄປ.
ຄຸນລັກສະນະສຳຄັນຂອງຊຸດຂໍ້ມູນລວມມີ:
- ຄອບຄຸມ 86 ພາສາ ແລະ ພາສາຖິ່ນ ລວມທັງຫຼາຍພາສາທີ່ຂາດແຄນຂໍ້ມູນ (low-resource) ແລະພາສາຂອງຊົນເຜົ່າ
- ການປະກອບຈາກຜູ້ເວົ້າປະມານ 110,000 ຄົນ ໃນພື້ນທີ່ ແລະ ພື້ນຫຼັງດ້ານປະຊາກອນທີ່ຫຼາກຫຼາຍ
- ສຽງທັງໝົດ 21,500 ຊົ່ວໂມງ ພ້ອມກັບການຖອດສຽງເປັນຂໍ້ຄວາມ 835 ຊົ່ວໂມງ
- ການບັນທຶກພາກສະໜາມທີ່ຄອບຄຸມ 120 ເມືອງ (districts) ໃນ 22 ລັດຂອງອິນເດຍ
- ປ່ອຍອອກພາຍໃຕ້ລິຂະສິດ CC BY 4.0 ຊຶ່ງອະນຸຍາດໃຫ້ນຳໃຊ້ຄືນຢ່າງກວ້າງຂວາງໂດຍຕ້ອງໃຫ້ການອ້າງອີງ
- ການຮອງຮັບທັງການຄົ້ນຄວ້າແບບບໍ່ໃຊ້ຫຼາຍໂໝດ (unimodal) ແລະການຄົ້ນຄວ້າແບບຫຼາຍໂໝດ (multimodal)
ວຽກທີ່ຮອງຮັບ ແລະ ກໍລະນີການນຳໃຊ້
VAANI ຖືກອອກແບບໃຫ້ເປັນແຫຼ່ງຂໍ້ມູນສຳລັບວຽກການດ້ານການເວົ້າ ແລະ ການປະມວນຜົນພາສາຫຼາຍປະເພດ. ນັກຄົ້ນຄວ້າ ແລະ ນັກພັດທະນາສາມາດນຳໃຊ້ເພື່ອຝຶກ ແລະ ປະເມີນລະບົບການຮັບຮູ້ສຽງແບບອັດຕະໂນມັດ (automatic speech recognition - ASR), ການສັງເຄາະສຽງຈາກຂໍ້ຄວາມ (text-to-speech - TTS), ການລະບຸຜູ້ເວົ້າ (speaker identification), ແລະ ແບບຈຳລອງການລະບຸພາສາ (language identification). ຊຸດຂໍ້ມູນຍັງຮອງຮັບວຽກການດ້ານການປັບປຸງ/ເສີມຄຸນນະພາບສຽງ (speech enhancement) ແລະການພັດທະນາໂມເດວພາສາຂະໜາດໃຫຍ່ຫຼາຍໂໝດ (multimodal large language models - LLMs). ຄວາມກວ້າງຂອງການຄອບຄຸມພາສາທຳໃຫ້ມັນເໝາະສົມຢ່າງພິເສດສຳລັບການທຽບຄຽງ (benchmarking) ລະບົບທີ່ຕັ້ງໃຈໃຫ້ເຮັດວຽກໃນສະພາບສັງຄົມດ້ານພາສາທີ່ຫຼາກຫຼາຍຂອງອິນເດຍ.
ເນື່ອງຈາກມີການລວມເອົາຫຼາຍພາສາ ແລະ ພາສາຖິ່ນທີ່ຂາດແຄນຂໍ້ມູນ ຊຶ່ງມີຂໍ້ມູນການເວົ້າເກົ່າໜ້ອຍຫຼືບໍ່ມີກ່ອນໜ້າ, VAANI ຈຶ່ງມີຄຸນຄ່າພິເສດສຳລັບນັກຄົ້ນຄວ້າທີ່ສຸມໃສ່ການສ້າງເຕັກໂນໂລຍີພາສາທີ່ຮອງຮັບທຸກກຸ່ມ (inclusive language technologies). ມັນໃຫ້ພື້ນຖານສຳລັບການພັດທະນາເຄື່ອງມື ASR ແລະ ການປະມວນຜົນພາສາທຳມະຊາດ (natural language processing) ທີ່ອາດຈະຮອງຮັບຊຸມຊົນທີ່ພາສາຂອງເຂົາເຄີຍຖືກບໍ່ຄ່ອຍຖືກລວມໃນການພັດທະນາ AI ກະແສຫຼັກ.
ຄວາມສຳຄັນຕໍ່ເຕັກໂນໂລຍີພາສາຂອງອິນເດຍ
ຂະໜາດ ແລະ ຄວາມຫຼາກຫຼາຍທາງພາສາຂອງ VAANI ເຮັດໃຫ້ມັນເປັນການປະກອບທີ່ໜ້າສົນໃຈໃຫ້ກັບວົງການຄົ້ນຄວ້າການເວົ້າຫຼາຍພາສາ (multilingual speech research) ໂດຍສະເພາະໃນບໍລິບົດຂອງພາສາຂອງອາຊີໃຕ້ (South Asian languages). ໂດຍການບັນທຶກແນວພັນການເວົ້າຈາກຊົນເຜົ່າ ຊົນນະບົດ ແລະ ຊຸມຊົນທ້ອງຖິ່ນ ຄຽງຄູ່ກັບພາສາທີ່ຖືກເວົ້າກັນຢ່າງກວ້າງຂວາງກວ່າ, ຊຸດຂໍ້ມູນຈັບມິຕິຂອງມໍລະດົກດ້ານພາສາຂອງອິນເດຍ ທີ່ມັກບໍ່ຄ່ອຍຖືກສະແດງໃນຊັບພະຍາກອນດ້ານຄອມພິວເຕີ. ລິຂະສິດແບບເປີດ (open license) ຊ່ວຍໃຫ້ສາມາດນຳໃຊ້ໂດຍສະຖາບັນການສຶກສາ ອົງການລັດ ແລະ ນັກຄົ້ນຄວ້າຈາກພາກອຸດສາຫະກຳ ທີ່ກຳລັງມຸ່ງໄປສູ່ການສ້າງເຕັກໂນໂລຍີການເວົ້າທີ່ຮອງຮັບທຸກກຸ່ມ ແລະ ສະທ້ອນຄວາມເປັນຕົວແທນໄດ້ດີຂຶ້ນ.