Name: VAANI
Creator: Indian Institute of Science
License: https://creativecommons.org/licenses/by/4.0/

Latar Belakang lan Pangembangan

VAANI (sing tegese "suara" utawa "pidato" ing sawetara basa India) digawe dening Indian Institute of Science (IISc) ing Bangalore minangka bagian saka upaya kanggo ngatasi kesenjangan signifikan ing sumber data pidato kanggo basa India. Lanskap linguistik India kalebu salah siji sing paling macem-macem ing donya, ngemot atusan basa lan ewu dialek, nanging mayoritas dataset pidato sing ana saiki fokus ing set basa sing wis ana sumber daya sing apik. VAANI dikembangake kanggo ngembangake ketersediaan data latihan kanggo ruang linguistik sing kurang terlayani iki kanthi nindakake pengumpulan data lapangan skala gedhe ing wilayah geografis lan linguistik sing macem-macem ing negara.

Data dikumpulake saka kira-kira 110.000 pembicara sing nyebar ing 120 distrik ing 22 negara bagian India, ngetokake upaya sengaja kanggo njupuk variasi regional lan dialek sing asli tinimbang ngandelake rekaman studio sing terkontrol. Dataset iki nyakup 86 basa lan dialek, wiwit saka basa utama sing dijadwalake kaya Hindi, Tamil, Telugu, Bengali, Kannada, lan Malayalam nganti macem-macem variasi regional lan basa suku kalebu Gondi, Santali, Kurukh, Wancho, lan Tenyidie, lan liya-liyane.

Komposisi Dataset lan Fitur Utama

VAANI ngemot kira-kira 21.500 jam audio ing total, nggawe iki salah siji korpus pidato multibasa paling gedhe sing fokus ing basa India. Saka jumlah iki, 835 jam wis ditranskripsi, nyedhiyakake anotasi teks kebenaran kanggo subset koleksi. Dataset iki uga nggabungake elemen multimodal, nggawe posisi kanggo digunakake luwih saka tugas pidato konvensional.

Karakteristik utama dataset iki kalebu:

Jangkauan 86 basa lan dialek, kalebu akeh variasi sumber daya rendah lan suku
Sumbangan saka kira-kira 110.000 pembicara saka latar geografis lan demografis sing macem-macem
21.500 jam total audio kanthi 835 jam pidato sing ditranskripsi
Rekaman lapangan sing nyebar ing 120 distrik ing 22 negara bagian India
Dilepasake miturut lisensi CC BY 4.0, ngidini panggunaan ulang sing jembar kanthi atribusi
Dukungan kanggo aplikasi riset unimodal lan multimodal

Tugas lan Kasus Penggunaan Sing Didukung

VAANI dirancang kanggo dadi sumber daya kanggo macem-macem tugas pemrosesan pidato lan basa. Peneliti lan pangembang bisa nggunakake kanggo latihan lan ngevaluasi sistem pengenalan pidato otomatis (ASR), sintesis teks-to-speech (TTS), identifikasi pembicara, lan model identifikasi basa. Dataset iki uga ndhukung karya ing peningkatan pidato lan pangembangan model basa gedhe multimodal (LLM). Jangkauan bahasa sing jembar nggawe iki relevan banget kanggo benchmarking sistem sing dimaksudake kanggo operasi ing lingkungan linguistik India sing macem-macem.

Amarga kalebu akeh basa lan dialek sumber daya rendah sing ora ana utawa ora ana data pidato sadurunge, VAANI nduweni nilai khusus kanggo peneliti sing fokus ing mbangun teknologi basa sing inklusif. Iki nyedhiyakake dhasar kanggo ngembangake alat ASR lan pemrosesan basa alami sing bisa nglayani komunitas sing basa-basa kasebut historis ora ana ing pangembangan AI mainstream.

Signifikansi kanggo Teknologi Basa India

Skala lan keragaman linguistik VAANI nggawe iki kontribusi sing penting kanggo bidang riset pidato multibasa, utamane ing konteks basa Asia Selatan. Kanthi mendokumentasikan variasi lisan saka komunitas suku, pedesaan, lan regional bebarengan karo basa sing luwih umum digunakake, dataset iki njupuk dimensi warisan linguistik India sing jarang diwakili ing sumber daya komputasi. Lisensi terbuka iki ngidini panggunaan dening institusi akademis, badan pemerintah, lan peneliti industri sing kerja kanggo teknologi pidato sing luwih inklusif lan representatif.

VAANI

Kategori

Tema

Latar Belakang lan Pangembangan

Komposisi Dataset lan Fitur Utama

Tugas lan Kasus Penggunaan Sing Didukung

Signifikansi kanggo Teknologi Basa India