Kategori
Tema
VAANI adalah dataset ujaran multibahasa berskala besar yang dikembangkan oleh Indian Institute of Science (IISc), Bangalore, yang berisi sekitar 21.500 jam audio yang dikumpulkan dari sekitar 110.000 penutur di 120 distrik di 22 negara bagian India. Dataset ini mencakup 86 bahasa dan dialek yang digunakan di seluruh India, termasuk bahasa-bahasa utama yang terjadwal serta berbagai ragam regional dan suku, dengan 835 jam ujaran yang telah ditranskripsikan.
Dataset ini dirancang untuk mendukung berbagai tugas ujaran dan bahasa, termasuk pengenalan ujaran otomatis, sintesis teks ke ujaran, identifikasi penutur, identifikasi bahasa, peningkatan kualitas ujaran, dan pengembangan model bahasa multimodal. Dirilis di bawah lisensi CC BY 4.0, dataset ini terutama ditujukan untuk pelatihan dan benchmarking sistem AI, dengan relevansi khusus bagi peneliti dan pengembang yang bekerja pada bahasa-bahasa India yang minim sumber daya dan kurang terwakili.
Latar Belakang dan Pengembangan
VAANI (yang berarti "suara" atau "ujaran" dalam beberapa bahasa India) dibuat oleh Indian Institute of Science (IISc) di Bangalore sebagai bagian dari upaya untuk mengatasi kesenjangan besar dalam sumber daya data ujaran untuk bahasa-bahasa India. Lanskap kebahasaan India termasuk yang paling beragam di dunia, mencakup ratusan bahasa dan ribuan dialek, namun sebagian besar dataset ujaran yang ada berfokus pada sekumpulan kecil bahasa yang memiliki sumber daya memadai. VAANI dikembangkan untuk memperluas ketersediaan data pelatihan bagi ruang kebahasaan yang kurang terlayani ini dengan melakukan pengumpulan data lapangan berskala besar di berbagai wilayah negara yang beragam secara geografis dan linguistik.
Data dikumpulkan dari sekitar 110.000 penutur yang tersebar di 120 distrik di 22 negara bagian India, mencerminkan upaya yang disengaja untuk menangkap variasi regional dan dialektal yang autentik alih-alih mengandalkan rekaman studio yang terkontrol. Dataset ini mencakup 86 bahasa dan dialek, mulai dari bahasa-bahasa utama yang terjadwal seperti Hindi, Tamil, Telugu, Bengali, Kannada, dan Malayalam hingga berbagai ragam regional dan bahasa suku seperti Gondi, Santali, Kurukh, Wancho, dan Tenyidie, serta banyak lainnya.
Komposisi Dataset dan Fitur Utama
VAANI mencakup total sekitar 21.500 jam audio, menjadikannya salah satu korpus ujaran multibahasa terbesar yang berfokus pada bahasa-bahasa India. Dari jumlah tersebut, 835 jam telah ditranskripsikan, menyediakan anotasi teks ground-truth untuk sebagian dari koleksi ini. Dataset ini juga menggabungkan elemen multimodal, sehingga dapat digunakan melampaui tugas-tugas ujaran konvensional.
Karakteristik utama dataset ini meliputi:
- Cakupan 86 bahasa dan dialek, termasuk banyak ragam dengan sumber daya rendah dan bahasa suku
- Kontribusi dari sekitar 110.000 penutur dari latar belakang geografis dan demografis yang beragam
- Total 21.500 jam audio dengan 835 jam ujaran yang ditranskripsikan
- Rekaman lapangan yang mencakup 120 distrik di 22 negara bagian India
- Dirilis di bawah lisensi CC BY 4.0, yang memungkinkan penggunaan ulang secara luas dengan atribusi
- Dukungan untuk aplikasi penelitian unimodal maupun multimodal
Tugas yang Didukung dan Kasus Penggunaan
VAANI dirancang untuk menjadi sumber daya bagi berbagai macam tugas pemrosesan ujaran dan bahasa. Peneliti dan pengembang dapat menggunakannya untuk melatih dan mengevaluasi sistem automatic speech recognition (ASR), sintesis text-to-speech (TTS), identifikasi penutur, dan model identifikasi bahasa. Dataset ini juga mendukung pekerjaan pada peningkatan kualitas ujaran dan pengembangan multimodal large language models (LLMs). Luasnya cakupan bahasa membuatnya sangat relevan untuk benchmarking sistem yang ditujukan untuk beroperasi di lingkungan kebahasaan India yang beragam.
Mengingat dimasukkannya banyak bahasa dan dialek dengan sumber daya rendah yang sebelumnya memiliki sedikit atau bahkan tidak ada data ujaran, VAANI memiliki nilai khusus bagi para peneliti yang berfokus pada pembangunan teknologi bahasa yang inklusif. Dataset ini menyediakan landasan untuk mengembangkan alat ASR dan pemrosesan bahasa alami yang dapat melayani komunitas yang bahasanya secara historis tidak hadir dalam pengembangan AI arus utama.
Signifikansi bagi Teknologi Bahasa India
Skala dan keragaman linguistik VAANI menjadikannya kontribusi penting bagi bidang penelitian ujaran multibahasa, khususnya dalam konteks bahasa-bahasa Asia Selatan. Dengan mendokumentasikan ragam ujaran dari komunitas suku, pedesaan, dan regional di samping bahasa-bahasa yang lebih luas digunakan, dataset ini menangkap dimensi warisan kebahasaan India yang jarang terwakili dalam sumber daya komputasional. Lisensi terbukanya memfasilitasi penggunaan oleh institusi akademik, badan pemerintah, dan peneliti industri yang bekerja menuju teknologi ujaran yang lebih inklusif dan representatif.