Kategooriad
Teemad
VAANI on ulatuslik mitmekeelne kõneandmestik, mille on välja töötanud India Teaduste Instituut (IISc) Bangalore’is. See sisaldab ligikaudu 21 500 tundi heli, mis on kogutud umbes 110 000 kõnelejalt 120 piirkonnast 22 India osariigis. Andmestik hõlmab 86 keelt ja murret, mida räägitakse üle kogu India, sealhulgas peamisi ajakava alusel tunnustatud keeli ning rohkelt piirkondlikke ja hõimukeelseid variatsioone, ning sisaldab 835 tundi transkribeeritud kõnet.
Andmestik on loodud toetama mitmesuguseid kõne- ja keeleülesandeid, sealhulgas automaatset kõnetuvastust, kõnest kõneks sünteesi (text-to-speech), kõneleja tuvastamist, keele tuvastamist, kõne täiustamist ning multimodaalsete keelemudelite arendamist. CC BY 4.0 litsentsi alusel avaldatuna on selle peamine eesmärk koolitada ja võrrelda tehisintellektisüsteeme (benchmarking), olles eriti asjakohane madala ressursiga ja väheesindatud India keeltega töötavatele uurijatele ja arendajatele.
Taust ja arendus
VAANI (mis tähendab mitmes India keeles „häält” või „kõnet”) loodi Bangalore’is asuvas India Teaduste Instituudis (IISc) osana jõupingutusest, mille eesmärk on vähendada märkimisväärset lõhet kõneandmete ressurssides India keelte jaoks. India keeleline maastik on üks mitmekesisemaid maailmas: see hõlmab sadu keeli ja tuhandeid murdeid, kuid enamik olemasolevaid kõneandmekogumeid keskendub kitsale hulgale hästi ressurssidega toetatud keeltele. VAANI töötati välja, et laiendada selle väheteenindatud keeleruumi jaoks treeningandmete kättesaadavust, viies läbi suuremahulise välitöödel põhineva andmekogumise geograafiliselt ja keeleliselt mitmekesistes piirkondades üle kogu riigi.
Andmeid koguti ligikaudu 110 000 kõneleja käest, kes olid jaotunud 120 ringkonda 22 India osariigis. See peegeldab teadlikku soovi jäädvustada tegelikku piirkondlikku ja murdelist varieeruvust, mitte toetuda kontrollitud stuudiosalvestustele. Andmekogum hõlmab 86 keelt ja murret, ulatudes suurtest riiklikult tunnustatud keeltest nagu hindi, tamili, telugu, bengali, kannada ja malajalami kuni paljude piirkondlike variantide ja hõimukeelteni, sealhulgas gondi, santali, kurukhi, wancho ja tenyidie, ning paljude teisteni.
Andmekogumi koostis ja peamised omadused
VAANI sisaldab kokku ligikaudu 21 500 tundi heli, mistõttu on see üks suurimaid mitmekeelseid kõneandmekogusid, mis on keskendunud India keeltele. Nendest on 835 tundi transkribeeritud, pakkudes kogumi alamhulga jaoks tõeseid tekstimärgistusi. Andmekogum sisaldab ka multimodaalseid elemente, mis seab selle kasutamiseks väljapoole tavapäraseid kõneülesandeid.
Andmekogumi peamised omadused on järgmised:
- Katvus 86 keele ja murde osas, sealhulgas palju vähetoetatud ja hõimude variante
- Panus ligikaudu 110 000 kõnelejalt, kes pärinevad erineva geograafia ja demograafilise taustaga piirkondadest
- 21 500 tundi heli kokku, millest 835 tundi on transkribeeritud kõnet
- Välisalvestused, mis hõlmavad 120 ringkonda 22 India osariigis
- Välja antud CC BY 4.0 litsentsi alusel, võimaldades laialdast taaskasutust viitega
- Tugi nii unimodaalsetele kui ka multimodaalsetele uurimisrakendustele
Toetatavad ülesanded ja kasutusjuhud
VAANI on loodud toimima ressursina väga paljude kõne- ja keeletöötluse ülesannete jaoks. Teadlased ja arendajad saavad seda kasutada automaatse kõnetuvastuse (ASR) süsteemide treenimiseks ja hindamiseks, kõnest kõneks (TTS) sünteesiks, kõneleja tuvastamiseks ning keele tuvastamise mudelite jaoks. Andmekogum toetab ka tööd kõne täiustamisega ning multimodaalsete suurte keelemudelite (LLM-ide) arendamist. Tänu keelekatvuse laiusele on see eriti asjakohane võrdlusaluste koostamisel süsteemidele, mis on mõeldud töötama India mitmekesises keelekeskkonnas.
Arvestades, et kaasatud on palju vähetoetatud keeli ja murdeid, mille jaoks puudub vähe või üldse mitte varasem kõneandmestik, on VAANI erilise väärtusega uurijatele, kes keskenduvad kaasavate keletehnoloogiate loomisele. See pakub vundamenti ASR- ja loomuliku keele töötlemise tööriistade arendamiseks, mis võiksid teenida kogukondi, kelle keeled on ajalooliselt jäänud tavapärasest tehisintellekti arendusest välja.
Tähtsus India keletehnoloogia jaoks
VAANI mastaap ja keeleline mitmekesisus muudavad selle märkimisväärseks panuseks mitmekeelse kõneuurimise valdkonda, eriti Lõuna-Aasia keelte kontekstis. Jäädvustades kõneldavaid variante hõimude, maapiirkondade ja piirkondlike kogukondade seast koos laiemalt kõneldud keeltesortidega, talletab andmekogum mõõtme India keelelisest pärandist, mida arvutusressurssides harva esindatakse. Avatud litsents hõlbustab kasutamist akadeemilistel asutustel, valitsusasutustel ja tööstuse uurijatel, kes töötavad kaasavamate ja esinduslikumate kõnetehnoloogiate nimel.