Taust ja arendus

VAANI (mis tähendab mitmes India keeles „häält” või „kõnet”) loodi Bangalore’is asuvas India Teaduste Instituudis (IISc) osana jõupingutusest, mille eesmärk on vähendada märkimisväärset lõhet kõneandmete ressurssides India keelte jaoks. India keeleline maastik on üks mitmekesisemaid maailmas: see hõlmab sadu keeli ja tuhandeid murdeid, kuid enamik olemasolevaid kõneandmekogumeid keskendub kitsale hulgale hästi ressurssidega toetatud keeltele. VAANI töötati välja, et laiendada selle väheteenindatud keeleruumi jaoks treeningandmete kättesaadavust, viies läbi suuremahulise välitöödel põhineva andmekogumise geograafiliselt ja keeleliselt mitmekesistes piirkondades üle kogu riigi.

Andmeid koguti ligikaudu 110 000 kõneleja käest, kes olid jaotunud 120 ringkonda 22 India osariigis. See peegeldab teadlikku soovi jäädvustada tegelikku piirkondlikku ja murdelist varieeruvust, mitte toetuda kontrollitud stuudiosalvestustele. Andmekogum hõlmab 86 keelt ja murret, ulatudes suurtest riiklikult tunnustatud keeltest nagu hindi, tamili, telugu, bengali, kannada ja malajalami kuni paljude piirkondlike variantide ja hõimukeelteni, sealhulgas gondi, santali, kurukhi, wancho ja tenyidie, ning paljude teisteni.

Andmekogumi koostis ja peamised omadused

VAANI sisaldab kokku ligikaudu 21 500 tundi heli, mistõttu on see üks suurimaid mitmekeelseid kõneandmekogusid, mis on keskendunud India keeltele. Nendest on 835 tundi transkribeeritud, pakkudes kogumi alamhulga jaoks tõeseid tekstimärgistusi. Andmekogum sisaldab ka multimodaalseid elemente, mis seab selle kasutamiseks väljapoole tavapäraseid kõneülesandeid.

Andmekogumi peamised omadused on järgmised:

Katvus 86 keele ja murde osas, sealhulgas palju vähetoetatud ja hõimude variante
Panus ligikaudu 110 000 kõnelejalt, kes pärinevad erineva geograafia ja demograafilise taustaga piirkondadest
21 500 tundi heli kokku, millest 835 tundi on transkribeeritud kõnet
Välisalvestused, mis hõlmavad 120 ringkonda 22 India osariigis
Välja antud CC BY 4.0 litsentsi alusel, võimaldades laialdast taaskasutust viitega
Tugi nii unimodaalsetele kui ka multimodaalsetele uurimisrakendustele

Toetatavad ülesanded ja kasutusjuhud

VAANI on loodud toimima ressursina väga paljude kõne- ja keeletöötluse ülesannete jaoks. Teadlased ja arendajad saavad seda kasutada automaatse kõnetuvastuse (ASR) süsteemide treenimiseks ja hindamiseks, kõnest kõneks (TTS) sünteesiks, kõneleja tuvastamiseks ning keele tuvastamise mudelite jaoks. Andmekogum toetab ka tööd kõne täiustamisega ning multimodaalsete suurte keelemudelite (LLM-ide) arendamist. Tänu keelekatvuse laiusele on see eriti asjakohane võrdlusaluste koostamisel süsteemidele, mis on mõeldud töötama India mitmekesises keelekeskkonnas.

Arvestades, et kaasatud on palju vähetoetatud keeli ja murdeid, mille jaoks puudub vähe või üldse mitte varasem kõneandmestik, on VAANI erilise väärtusega uurijatele, kes keskenduvad kaasavate keletehnoloogiate loomisele. See pakub vundamenti ASR- ja loomuliku keele töötlemise tööriistade arendamiseks, mis võiksid teenida kogukondi, kelle keeled on ajalooliselt jäänud tavapärasest tehisintellekti arendusest välja.

Tähtsus India keletehnoloogia jaoks

VAANI mastaap ja keeleline mitmekesisus muudavad selle märkimisväärseks panuseks mitmekeelse kõneuurimise valdkonda, eriti Lõuna-Aasia keelte kontekstis. Jäädvustades kõneldavaid variante hõimude, maapiirkondade ja piirkondlike kogukondade seast koos laiemalt kõneldud keeltesortidega, talletab andmekogum mõõtme India keelelisest pärandist, mida arvutusressurssides harva esindatakse. Avatud litsents hõlbustab kasutamist akadeemilistel asutustel, valitsusasutustel ja tööstuse uurijatel, kes töötavad kaasavamate ja esinduslikumate kõnetehnoloogiate nimel.

VAANI

Kategooriad

Teemad

Taust ja arendus

Andmekogumi koostis ja peamised omadused

Toetatavad ülesanded ja kasutusjuhud

Tähtsus India keletehnoloogia jaoks