Kategori
Tema
VAANI iku dataset pidato multibahasa skala gedhe sing dikembangaké déning Indian Institute of Science (IISc), Bangalore, ngemot kira-kira 21,500 jam audio sing dikumpulake saka sekitar 110,000 pembicara ing 120 kabupaten ing 22 negara bagian India. Dataset iki nyakup 86 basa lan dialek sing digunakake ing India, kalebu basa utama sing dijadwalaké lan macem-macem variasi daerah lan suku, kanthi 835 jam pidato sing ditranskripsi.
Dataset iki dirancang kanggo ndhukung macem-macem tugas pidato lan basa kalebu pengenalan pidato otomatis, sintesis teks menyang pidato, identifikasi pembicara, identifikasi basa, peningkatan pidato, lan pangembangan model basa multimodal. Dirilis kanthi lisensi CC BY 4.0, dataset iki dimaksudaké utamane kanggo latihan lan benchmarking sistem AI, kanthi relevansi khusus kanggo peneliti lan pangembang sing kerja ing basa India sing kurang sumber daya lan ora terwakili.
Latar Belakang lan Pangembangan
VAANI (sing tegese "suara" utawa "pidato" ing sawetara basa India) digawe dening Indian Institute of Science (IISc) ing Bangalore minangka bagian saka upaya kanggo ngatasi kesenjangan signifikan ing sumber data pidato kanggo basa India. Lanskap linguistik India kalebu salah siji sing paling macem-macem ing donya, ngemot atusan basa lan ewu dialek, nanging mayoritas dataset pidato sing ana saiki fokus ing set basa sing wis ana sumber daya sing apik. VAANI dikembangake kanggo ngembangake ketersediaan data latihan kanggo ruang linguistik sing kurang terlayani iki kanthi nindakake pengumpulan data lapangan skala gedhe ing wilayah geografis lan linguistik sing macem-macem ing negara.
Data dikumpulake saka kira-kira 110.000 pembicara sing nyebar ing 120 distrik ing 22 negara bagian India, ngetokake upaya sengaja kanggo njupuk variasi regional lan dialek sing asli tinimbang ngandelake rekaman studio sing terkontrol. Dataset iki nyakup 86 basa lan dialek, wiwit saka basa utama sing dijadwalake kaya Hindi, Tamil, Telugu, Bengali, Kannada, lan Malayalam nganti macem-macem variasi regional lan basa suku kalebu Gondi, Santali, Kurukh, Wancho, lan Tenyidie, lan liya-liyane.
Komposisi Dataset lan Fitur Utama
VAANI ngemot kira-kira 21.500 jam audio ing total, nggawe iki salah siji korpus pidato multibasa paling gedhe sing fokus ing basa India. Saka jumlah iki, 835 jam wis ditranskripsi, nyedhiyakake anotasi teks kebenaran kanggo subset koleksi. Dataset iki uga nggabungake elemen multimodal, nggawe posisi kanggo digunakake luwih saka tugas pidato konvensional.
Karakteristik utama dataset iki kalebu:
- Jangkauan 86 basa lan dialek, kalebu akeh variasi sumber daya rendah lan suku
- Sumbangan saka kira-kira 110.000 pembicara saka latar geografis lan demografis sing macem-macem
- 21.500 jam total audio kanthi 835 jam pidato sing ditranskripsi
- Rekaman lapangan sing nyebar ing 120 distrik ing 22 negara bagian India
- Dilepasake miturut lisensi CC BY 4.0, ngidini panggunaan ulang sing jembar kanthi atribusi
- Dukungan kanggo aplikasi riset unimodal lan multimodal
Tugas lan Kasus Penggunaan Sing Didukung
VAANI dirancang kanggo dadi sumber daya kanggo macem-macem tugas pemrosesan pidato lan basa. Peneliti lan pangembang bisa nggunakake kanggo latihan lan ngevaluasi sistem pengenalan pidato otomatis (ASR), sintesis teks-to-speech (TTS), identifikasi pembicara, lan model identifikasi basa. Dataset iki uga ndhukung karya ing peningkatan pidato lan pangembangan model basa gedhe multimodal (LLM). Jangkauan bahasa sing jembar nggawe iki relevan banget kanggo benchmarking sistem sing dimaksudake kanggo operasi ing lingkungan linguistik India sing macem-macem.
Amarga kalebu akeh basa lan dialek sumber daya rendah sing ora ana utawa ora ana data pidato sadurunge, VAANI nduweni nilai khusus kanggo peneliti sing fokus ing mbangun teknologi basa sing inklusif. Iki nyedhiyakake dhasar kanggo ngembangake alat ASR lan pemrosesan basa alami sing bisa nglayani komunitas sing basa-basa kasebut historis ora ana ing pangembangan AI mainstream.
Signifikansi kanggo Teknologi Basa India
Skala lan keragaman linguistik VAANI nggawe iki kontribusi sing penting kanggo bidang riset pidato multibasa, utamane ing konteks basa Asia Selatan. Kanthi mendokumentasikan variasi lisan saka komunitas suku, pedesaan, lan regional bebarengan karo basa sing luwih umum digunakake, dataset iki njupuk dimensi warisan linguistik India sing jarang diwakili ing sumber daya komputasi. Lisensi terbuka iki ngidini panggunaan dening institusi akademis, badan pemerintah, lan peneliti industri sing kerja kanggo teknologi pidato sing luwih inklusif lan representatif.