Name: VAANI
Creator: Indian Institute of Science
License: https://creativecommons.org/licenses/by/4.0/

Latar Belakang dan Pengembangan

VAANI (yang berarti "suara" atau "ujaran" dalam beberapa bahasa India) dibuat oleh Indian Institute of Science (IISc) di Bangalore sebagai bagian dari upaya untuk mengatasi kesenjangan besar dalam sumber daya data ujaran untuk bahasa-bahasa India. Lanskap kebahasaan India termasuk yang paling beragam di dunia, mencakup ratusan bahasa dan ribuan dialek, namun sebagian besar dataset ujaran yang ada berfokus pada sekumpulan kecil bahasa yang memiliki sumber daya memadai. VAANI dikembangkan untuk memperluas ketersediaan data pelatihan bagi ruang kebahasaan yang kurang terlayani ini dengan melakukan pengumpulan data lapangan berskala besar di berbagai wilayah negara yang beragam secara geografis dan linguistik.

Data dikumpulkan dari sekitar 110.000 penutur yang tersebar di 120 distrik di 22 negara bagian India, mencerminkan upaya yang disengaja untuk menangkap variasi regional dan dialektal yang autentik alih-alih mengandalkan rekaman studio yang terkontrol. Dataset ini mencakup 86 bahasa dan dialek, mulai dari bahasa-bahasa utama yang terjadwal seperti Hindi, Tamil, Telugu, Bengali, Kannada, dan Malayalam hingga berbagai ragam regional dan bahasa suku seperti Gondi, Santali, Kurukh, Wancho, dan Tenyidie, serta banyak lainnya.

Komposisi Dataset dan Fitur Utama

VAANI mencakup total sekitar 21.500 jam audio, menjadikannya salah satu korpus ujaran multibahasa terbesar yang berfokus pada bahasa-bahasa India. Dari jumlah tersebut, 835 jam telah ditranskripsikan, menyediakan anotasi teks ground-truth untuk sebagian dari koleksi ini. Dataset ini juga menggabungkan elemen multimodal, sehingga dapat digunakan melampaui tugas-tugas ujaran konvensional.

Karakteristik utama dataset ini meliputi:

Cakupan 86 bahasa dan dialek, termasuk banyak ragam dengan sumber daya rendah dan bahasa suku
Kontribusi dari sekitar 110.000 penutur dari latar belakang geografis dan demografis yang beragam
Total 21.500 jam audio dengan 835 jam ujaran yang ditranskripsikan
Rekaman lapangan yang mencakup 120 distrik di 22 negara bagian India
Dirilis di bawah lisensi CC BY 4.0, yang memungkinkan penggunaan ulang secara luas dengan atribusi
Dukungan untuk aplikasi penelitian unimodal maupun multimodal

Tugas yang Didukung dan Kasus Penggunaan

VAANI dirancang untuk menjadi sumber daya bagi berbagai macam tugas pemrosesan ujaran dan bahasa. Peneliti dan pengembang dapat menggunakannya untuk melatih dan mengevaluasi sistem automatic speech recognition (ASR), sintesis text-to-speech (TTS), identifikasi penutur, dan model identifikasi bahasa. Dataset ini juga mendukung pekerjaan pada peningkatan kualitas ujaran dan pengembangan multimodal large language models (LLMs). Luasnya cakupan bahasa membuatnya sangat relevan untuk benchmarking sistem yang ditujukan untuk beroperasi di lingkungan kebahasaan India yang beragam.

Mengingat dimasukkannya banyak bahasa dan dialek dengan sumber daya rendah yang sebelumnya memiliki sedikit atau bahkan tidak ada data ujaran, VAANI memiliki nilai khusus bagi para peneliti yang berfokus pada pembangunan teknologi bahasa yang inklusif. Dataset ini menyediakan landasan untuk mengembangkan alat ASR dan pemrosesan bahasa alami yang dapat melayani komunitas yang bahasanya secara historis tidak hadir dalam pengembangan AI arus utama.

Signifikansi bagi Teknologi Bahasa India

Skala dan keragaman linguistik VAANI menjadikannya kontribusi penting bagi bidang penelitian ujaran multibahasa, khususnya dalam konteks bahasa-bahasa Asia Selatan. Dengan mendokumentasikan ragam ujaran dari komunitas suku, pedesaan, dan regional di samping bahasa-bahasa yang lebih luas digunakan, dataset ini menangkap dimensi warisan kebahasaan India yang jarang terwakili dalam sumber daya komputasional. Lisensi terbukanya memfasilitasi penggunaan oleh institusi akademik, badan pemerintah, dan peneliti industri yang bekerja menuju teknologi ujaran yang lebih inklusif dan representatif.

VAANI

Kategori

Tema

Latar Belakang dan Pengembangan

Komposisi Dataset dan Fitur Utama

Tugas yang Didukung dan Kasus Penggunaan

Signifikansi bagi Teknologi Bahasa India