Categorii
Teme
VAANI este un set de date de vorbire multilingvă la scară largă dezvoltat de Indian Institute of Science (IISc), Bangalore, conținând aproximativ 21.500 de ore de audio colectate de la aproximativ 110.000 de vorbitori din 120 de districte din 22 de state indiene. Acesta acoperă 86 de limbi și dialecte vorbite în India, inclusiv limbi programate majore, precum și numeroase varietăți regionale și tribale, având 835 de ore de vorbire transcrisă.
Setul de date este conceput pentru a sprijini o gamă de sarcini de vorbire și limbaj, inclusiv recunoașterea automată a vorbirii, sinteza text-vorbire, identificarea vorbitorului, identificarea limbii, îmbunătățirea vorbirii și dezvoltarea modelului de limbaj multimodal. Lansat sub o licență CC BY 4.0, este destinat în principal antrenării și evaluării sistemelor AI, având o relevanță deosebită pentru cercetători și dezvoltatori care lucrează cu limbi indiene cu resurse reduse și subreprezentate.
Context și Dezvoltare
VAANI (care înseamnă "voce" sau "vorbire" în mai multe limbi indiene) a fost creat de Indian Institute of Science (IISc) din Bangalore ca parte a unui efort de a aborda gap-ul semnificativ în resursele de date de vorbire pentru limbile indiene. Peisajul lingvistic al Indiei este printre cele mai diverse din lume, cuprinzând sute de limbi și mii de dialecte, totuși majoritatea seturilor de date existente se concentrează pe un set restrâns de limbi bine resursate. VAANI a fost dezvoltat pentru a extinde disponibilitatea datelor de antrenament pentru acest spațiu lingvistic neglijat prin colectarea de date pe scară largă în teren din regiuni geografic și lingvistic diverse ale țării.
Datele au fost adunate de la aproximativ 110,000 de vorbitori răspândiți în 120 de districte din 22 de state indiene, reflectând un efort deliberat de a captura variația regională și dialectală autentică, mai degrabă decât de a se baza pe înregistrări controlate în studio. Setul de date acoperă 86 de limbi și dialecte, variind de la limbi programate majore precum Hindi, Tamil, Telugu, Bengali, Kannada și Malayalam la numeroase varietăți regionale și limbi tribale, inclusiv Gondi, Santali, Kurukh, Wancho și Tenyidie, printre multe altele.
Compoziția Setului de Date și Caracteristici Cheie
VAANI cuprinde aproximativ 21,500 de ore de audio în total, făcându-l unul dintre cele mai mari corpuri de vorbire multilingve axate pe limbile indiene. Dintre acestea, 835 de ore au fost transcrise, oferind anotări de text de adevăr pentru un subset al colecției. Setul de date încorporează de asemenea elemente multimodale, poziționându-l pentru utilizare dincolo de sarcinile convenționale de vorbire.
Caracteristicile cheie ale setului de date includ:
- Acoperirea a 86 de limbi și dialecte, inclusiv multe varietăți cu resurse reduse și tribale
- Contribuții de la aproximativ 110,000 de vorbitori din diverse medii geografice și demografice
- 21,500 de ore totale de audio cu 835 de ore de vorbire transcrisă
- Înregistrări de teren din 120 de districte din 22 de state indiene
- Publicat sub o licență CC BY 4.0, permițând reutilizarea largă cu atribuire
- Suport pentru aplicații de cercetare atât unimodale, cât și multimodale
Sarcini și Cazuri de Utilizare Susținute
VAANI este conceput pentru a servi ca o resursă pentru o gamă largă de sarcini de procesare a vorbirii și limbajului. Cercetătorii și dezvoltatorii îl pot folosi pentru antrenarea și evaluarea sistemelor de recunoaștere automată a vorbirii (ASR), sinteza text-la-vorbire (TTS), identificarea vorbitorului și modelele de identificare a limbii. Setul de date susține de asemenea lucrările pe îmbunătățirea vorbirii și dezvoltarea de modele mari de limbaj multimodal (LLMs). Lățimea acoperirii lingvistice îl face deosebit de relevant pentru evaluarea sistemelor destinate să funcționeze în diversele medii lingvistice ale Indiei.
Având în vedere includerea multor limbi și dialecte cu resurse reduse pentru care există puține sau deloc date anterioare de vorbire, VAANI are o valoare deosebită pentru cercetătorii care se concentrează pe construirea de tehnologii lingvistice incluzive. Oferă o bază pentru dezvoltarea de instrumente ASR și de procesare a limbajului natural care ar putea servi comunităților ale căror limbi au fost istoric absente din dezvoltarea principală a AI.
Semnificația pentru Tehnologia Limbilor Indiene
Scala și diversitatea lingvistică a VAANI îl fac o contribuție notabilă în domeniul cercetării vorbirii multilingve, în special în contextul limbilor din Asia de Sud. Prin documentarea varietăților vorbite din comunități tribale, rurale și regionale alături de limbi mai vorbite, setul de date captează o dimensiune a patrimoniului lingvistic al Indiei care este rar reprezentată în resursele computaționale. Licența sa deschisă facilitează utilizarea de către instituții academice, organisme guvernamentale și cercetători din industrie care lucrează pentru tehnologii de vorbire mai incluzive și reprezentative.