21,500 hours CC-BY 4.0 Training ทุกภาษา

ธีม

voice audionlp

VAANI เป็นชุดข้อมูลเสียงหลายภาษาขนาดใหญ่ที่พัฒนาโดยสถาบันวิทยาศาสตร์แห่งอินเดีย (IISc) เมืองบังกาลอร์ ประกอบด้วยเสียงประมาณ 21,500 ชั่วโมงที่รวบรวมจากผู้พูดราว 110,000 คน ใน 120 เขตพื้นที่ทั่ว 22 รัฐของอินเดีย ครอบคลุม 86 ภาษาและภาษาถิ่นที่ใช้พูดทั่วประเทศอินเดีย รวมถึงภาษาที่ได้รับการกำหนดตามตารางหลัก ตลอดจนความหลากหลายระดับภูมิภาคและชนเผ่าจำนวนมาก โดยมีคำพูดที่ถอดเสียงแล้ว 835 ชั่วโมง

ชุดข้อมูลนี้ออกแบบมาเพื่อรองรับงานด้านเสียงและภาษาได้หลากหลาย รวมถึงการรู้จำเสียงอัตโนมัติ การสังเคราะห์เสียงจากข้อความ การระบุตัวผู้พูด การระบุภาษา การปรับปรุงคุณภาพสัญญาณเสียง และการพัฒนารูปแบบภาษาแบบมัลติโหมด เผยแพร่ภายใต้สัญญาอนุญาต CC BY 4.0 โดยมีเป้าหมายหลักเพื่อใช้ฝึกและใช้เป็นเกณฑ์เปรียบเทียบสำหรับระบบ AI โดยเฉพาะอย่างยิ่งสำหรับนักวิจัยและนักพัฒนาที่ทำงานกับภาษาอินเดียที่มีทรัพยากรจำกัดและยังไม่ได้รับการเป็นตัวแทนอย่างเพียงพอ

ความเป็นมาและการพัฒนา

VAANI (ซึ่งหมายถึง “เสียง” หรือ “การพูด” ในหลายภาษาอินเดีย) ถูกสร้างขึ้นโดย Indian Institute of Science (IISc) ในบังกาลอร์ ภายใต้ความพยายามเพื่อแก้ไขช่องว่างที่สำคัญในทรัพยากรข้อมูลเสียงสำหรับภาษาอินเดีย ภูมิทัศน์ด้านภาษาของอินเดียเป็นหนึ่งในพื้นที่ที่มีความหลากหลายมากที่สุดในโลก ครอบคลุมหลายร้อยภาษาและหลายพันสำเนียง แต่ข้อมูลชุดเสียงที่มีอยู่ส่วนใหญ่กลับมุ่งเน้นไปที่ภาษาเพียงไม่กี่ภาษาที่มีทรัพยากรพร้อมใช้ VAANI ได้รับการพัฒนาขึ้นเพื่อขยายความพร้อมของข้อมูลสำหรับการฝึกในพื้นที่ทางภาษาที่ยังขาดแคลนนี้ โดยดำเนินการเก็บข้อมูลภาคสนามขนาดใหญ่ในพื้นที่ที่มีความหลากหลายทั้งทางภูมิศาสตร์และทางภาษา

ข้อมูลถูกรวบรวมจากผู้พูดประมาณ 110,000 คน กระจายอยู่ใน 120 เขตการปกครองของ 22 รัฐในอินเดีย สะท้อนถึงความตั้งใจที่จะเก็บความแตกต่างด้านภูมิภาคและด้านสำเนียงอย่างแท้จริง แทนที่จะพึ่งพาการบันทึกเสียงในสตูดิโอที่ควบคุมได้ ชุดข้อมูลครอบคลุม 86 ภาษาและสำเนียง ตั้งแต่ภาษาที่มีการใช้อย่างแพร่หลาย เช่น ฮินดี ทมิฬ เตลูกู เบงกาลี กันนาดา และมาลายาลัม ไปจนถึงความหลากหลายระดับภูมิภาคและภาษาชนเผ่าจำนวนมาก รวมถึง Gondi, Santali, Kurukh, Wancho และ Tenyidie รวมถึงอื่น ๆ อีกมากมาย

องค์ประกอบของชุดข้อมูลและคุณสมบัติสำคัญ

VAANI ประกอบด้วยเสียงรวมประมาณ 21,500 ชั่วโมง ทำให้เป็นหนึ่งในคลังข้อมูลเสียงหลายภาษา (multilingual) ที่ใหญ่ที่สุด โดยมุ่งเน้นภาษาอินเดียโดยเฉพาะ จากจำนวนนี้ มี 835 ชั่วโมงที่ถูกถอดเสียงแล้ว ซึ่งให้คำอธิบายข้อความที่เป็น “ความจริงภาคพื้น” สำหรับส่วนหนึ่งของชุดข้อมูล ชุดข้อมูลยังรวมองค์ประกอบแบบหลายรูปแบบ (multimodal) ทำให้เหมาะสำหรับการใช้งานนอกเหนือจากงานด้านเสียงแบบดั้งเดิม

คุณลักษณะสำคัญของชุดข้อมูลได้แก่:

  • ครอบคลุม 86 ภาษาและสำเนียง รวมถึงความหลากหลายที่มีทรัพยากรน้อยและภาษาชนเผ่าจำนวนมาก
  • ข้อมูลจากผู้พูดราว 110,000 คน ในพื้นฐานทางภูมิศาสตร์และประชากรที่หลากหลาย
  • เสียงรวม 21,500 ชั่วโมง พร้อมเสียงที่ถอดเสียงแล้ว 835 ชั่วโมง
  • การบันทึกภาคสนามครอบคลุม 120 เขตการปกครองใน 22 รัฐของอินเดีย
  • เผยแพร่ภายใต้ใบอนุญาต CC BY 4.0 อนุญาตให้ใช้ซ้ำได้อย่างกว้างขวางพร้อมระบุแหล่งที่มา
  • รองรับทั้งงานวิจัยแบบเอกโหมด (unimodal) และแบบหลายรูปแบบ (multimodal)

งานที่รองรับและกรณีการใช้งาน

VAANI ออกแบบมาเพื่อเป็นทรัพยากรสำหรับงานด้านการประมวลผลเสียงและภาษาได้หลากหลาย นักวิจัยและนักพัฒนาสามารถนำไปใช้เพื่อฝึกและประเมินระบบรู้จำคำพูดอัตโนมัติ (ASR) การสังเคราะห์เสียงพูดจากข้อความ (TTS) การระบุตัวตนของผู้พูด และโมเดลการระบุภาษา ชุดข้อมูลยังรองรับงานด้านการปรับปรุงคุณภาพเสียงพูด และการพัฒนามัลติโหมดลาร์จลิงเกวิดโมเดล (LLMs) ด้วย ความกว้างของการครอบคลุมภาษา ทำให้ชุดข้อมูลนี้มีความเหมาะสมเป็นพิเศษสำหรับการใช้เป็นเกณฑ์เปรียบเทียบระบบที่ตั้งใจจะทำงานในสภาพแวดล้อมทางภาษาที่หลากหลายของอินเดีย

เนื่องจากมีการรวมภาษาและสำเนียงที่มีทรัพยากรน้อยจำนวนมาก ซึ่งก่อนหน้านี้แทบไม่มีหรือไม่มีข้อมูลเสียงมาก่อน VAANI จึงมีคุณค่าเป็นพิเศษสำหรับนักวิจัยที่มุ่งสร้างเทคโนโลยีภาษาที่ครอบคลุม ชุดข้อมูลนี้เป็นรากฐานสำหรับการพัฒนาเครื่องมือด้าน ASR และการประมวลผลภาษาธรรมชาติ ที่อาจช่วยเหลือชุมชนซึ่งภาษาเคยถูกมองข้ามจากการพัฒนา AI กระแสหลักมาโดยตลอด

ความสำคัญต่อเทคโนโลยีภาษาในอินเดีย

ขนาดและความหลากหลายทางภาษาใน VAANI ทำให้เป็นผลงานที่โดดเด่นในสาขาการวิจัยเสียงหลายภาษา โดยเฉพาะในบริบทของภาษาในเอเชียใต้ ด้วยการบันทึกความหลากหลายของภาษาพูดจากชุมชนชนเผ่า ชนบท และระดับภูมิภาค ควบคู่ไปกับภาษาที่มีผู้พูดจำนวนมากกว่า ชุดข้อมูลจึงเก็บมิติของมรดกทางภาษาของอินเดีย ซึ่งมักไม่ค่อยถูกสะท้อนในทรัพยากรเชิงคำนวณ ใบอนุญาตแบบเปิดช่วยเอื้อให้สถาบันการศึกษา หน่วยงานภาครัฐ และนักวิจัยในอุตสาหกรรม สามารถนำไปใช้เพื่อพัฒนาเทคโนโลยีเสียงที่ครอบคลุมและเป็นตัวแทนได้มากขึ้น

รายงาน