Name: VAANI
Creator: Indian Institute of Science
License: https://creativecommons.org/licenses/by/4.0/

Context și Dezvoltare

VAANI (care înseamnă "voce" sau "vorbire" în mai multe limbi indiene) a fost creat de Indian Institute of Science (IISc) din Bangalore ca parte a unui efort de a aborda gap-ul semnificativ în resursele de date de vorbire pentru limbile indiene. Peisajul lingvistic al Indiei este printre cele mai diverse din lume, cuprinzând sute de limbi și mii de dialecte, totuși majoritatea seturilor de date existente se concentrează pe un set restrâns de limbi bine resursate. VAANI a fost dezvoltat pentru a extinde disponibilitatea datelor de antrenament pentru acest spațiu lingvistic neglijat prin colectarea de date pe scară largă în teren din regiuni geografic și lingvistic diverse ale țării.

Datele au fost adunate de la aproximativ 110,000 de vorbitori răspândiți în 120 de districte din 22 de state indiene, reflectând un efort deliberat de a captura variația regională și dialectală autentică, mai degrabă decât de a se baza pe înregistrări controlate în studio. Setul de date acoperă 86 de limbi și dialecte, variind de la limbi programate majore precum Hindi, Tamil, Telugu, Bengali, Kannada și Malayalam la numeroase varietăți regionale și limbi tribale, inclusiv Gondi, Santali, Kurukh, Wancho și Tenyidie, printre multe altele.

Compoziția Setului de Date și Caracteristici Cheie

VAANI cuprinde aproximativ 21,500 de ore de audio în total, făcându-l unul dintre cele mai mari corpuri de vorbire multilingve axate pe limbile indiene. Dintre acestea, 835 de ore au fost transcrise, oferind anotări de text de adevăr pentru un subset al colecției. Setul de date încorporează de asemenea elemente multimodale, poziționându-l pentru utilizare dincolo de sarcinile convenționale de vorbire.

Caracteristicile cheie ale setului de date includ:

Acoperirea a 86 de limbi și dialecte, inclusiv multe varietăți cu resurse reduse și tribale
Contribuții de la aproximativ 110,000 de vorbitori din diverse medii geografice și demografice
21,500 de ore totale de audio cu 835 de ore de vorbire transcrisă
Înregistrări de teren din 120 de districte din 22 de state indiene
Publicat sub o licență CC BY 4.0, permițând reutilizarea largă cu atribuire
Suport pentru aplicații de cercetare atât unimodale, cât și multimodale

Sarcini și Cazuri de Utilizare Susținute

VAANI este conceput pentru a servi ca o resursă pentru o gamă largă de sarcini de procesare a vorbirii și limbajului. Cercetătorii și dezvoltatorii îl pot folosi pentru antrenarea și evaluarea sistemelor de recunoaștere automată a vorbirii (ASR), sinteza text-la-vorbire (TTS), identificarea vorbitorului și modelele de identificare a limbii. Setul de date susține de asemenea lucrările pe îmbunătățirea vorbirii și dezvoltarea de modele mari de limbaj multimodal (LLMs). Lățimea acoperirii lingvistice îl face deosebit de relevant pentru evaluarea sistemelor destinate să funcționeze în diversele medii lingvistice ale Indiei.

Având în vedere includerea multor limbi și dialecte cu resurse reduse pentru care există puține sau deloc date anterioare de vorbire, VAANI are o valoare deosebită pentru cercetătorii care se concentrează pe construirea de tehnologii lingvistice incluzive. Oferă o bază pentru dezvoltarea de instrumente ASR și de procesare a limbajului natural care ar putea servi comunităților ale căror limbi au fost istoric absente din dezvoltarea principală a AI.

Semnificația pentru Tehnologia Limbilor Indiene

Scala și diversitatea lingvistică a VAANI îl fac o contribuție notabilă în domeniul cercetării vorbirii multilingve, în special în contextul limbilor din Asia de Sud. Prin documentarea varietăților vorbite din comunități tribale, rurale și regionale alături de limbi mai vorbite, setul de date captează o dimensiune a patrimoniului lingvistic al Indiei care este rar reprezentată în resursele computaționale. Licența sa deschisă facilitează utilizarea de către instituții academice, organisme guvernamentale și cercetători din industrie care lucrează pentru tehnologii de vorbire mai incluzive și reprezentative.

VAANI

Categorii

Teme

Context și Dezvoltare

Compoziția Setului de Date și Caracteristici Cheie

Sarcini și Cazuri de Utilizare Susținute

Semnificația pentru Tehnologia Limbilor Indiene