Fonas ir plėtra

VAANI (kuris reiškia „balsas“ arba „kalba“ keliomis Indijos kalbomis) buvo sukurtas Indijos mokslo instituto (IISc) Bangalore kaip dalis pastangų spręsti reikšmingą spragą kalbos duomenų išteklių Indijos kalboms. Indijos kalbinė aplinka yra viena iš įvairesnių pasaulyje, apimanti šimtus kalbų ir tūkstančius dialektų, tačiau dauguma esamų kalbos duomenų rinkinių sutelkti į siaurą gerai išteklių turinčių kalbų rinkinį. VAANI buvo sukurtas siekiant išplėsti mokymo duomenų prieinamumą šioje nepakankamai aptarnaujamoje kalbinėje erdvėje, vykdant didelio masto lauko duomenų rinkimą įvairiose geografiškai ir kalbiškai skirtingose šalies regionuose.

Duomenys buvo surinkti iš maždaug 110 000 kalbėtojų, pasklidusių po 120 rajonų 22 Indijos valstijose, atspindinčių sąmoningą pastangą užfiksuoti tikrą regioninę ir dialektinę įvairovę, o ne remtis kontroliuojamais studijos įrašais. Duomenų rinkinys apima 86 kalbas ir dialektus, pradedant pagrindinėmis numatytomis kalbomis, tokiomis kaip hindi, tamilų, telugų, bengalų, kanada ir malajalam, iki daugybės regioninių variantų ir genčių kalbų, įskaitant Gondi, Santali, Kurukh, Wancho ir Tenyidie, tarp daugelio kitų.

Duomenų rinkinio sudėtis ir pagrindinės savybės

VAANI apima maždaug 21 500 valandų garso, todėl tai yra vienas didžiausių daugialingvių kalbos korpusų, orientuotų į Indijos kalbas. Iš šio kiekio 835 valandos buvo transkribuotos, suteikiant tikrą tekstinę anotaciją tam tikrai kolekcijos daliai. Duomenų rinkinys taip pat apima multimodalius elementus, leidžiančius jį naudoti ne tik tradicinėms kalbos užduotims.

Pagrindinės duomenų rinkinio savybės apima:

86 kalbų ir dialektų aprėptis, įskaitant daugelį mažai išteklių turinčių ir genčių variantų
Indėliai iš maždaug 110 000 kalbėtojų iš įvairių geografinių ir demografinių aplinkybių
21 500 valandų bendro garso, iš kurių 835 valandos transkribuotos kalbos
Lauko įrašai, apimantys 120 rajonų 22 Indijos valstijose
Išleista pagal CC BY 4.0 licenciją, leidžiančią plačiai naudoti su atribucija
Parama tiek unimodaliniams, tiek multimodaliniams tyrimų taikymams

Palaikomos užduotys ir naudojimo atvejai

VAANI yra sukurtas kaip išteklius plačiam kalbos ir kalbos apdorojimo užduočių spektrui. Tyrėjai ir kūrėjai gali jį naudoti automatinei kalbos atpažinimo (ASR) sistemų mokymui ir vertinimui, tekstui į kalbą (TTS) sintezės, kalbėtojo identifikavimo ir kalbos identifikavimo modelių kūrimui. Duomenų rinkinys taip pat remia kalbos gerinimo ir multimodalinių didelių kalbos modelių (LLM) kūrimą. Jo kalbų aprėptis daro jį ypač aktualiu sistemų, skirtų veikti įvairioje Indijos kalbinėje aplinkoje, vertinimui.

Atsižvelgiant į tai, kad įtrauktos daugelis mažai išteklių turinčių kalbų ir dialektų, kuriems anksčiau buvo mažai arba visai nebuvo kalbos duomenų, VAANI turi ypatingą vertę tyrėjams, kurie orientuojasi į įtraukiamų kalbos technologijų kūrimą. Jis suteikia pagrindą ASR ir natūralios kalbos apdorojimo įrankių kūrimui, kurie galėtų tarnauti bendruomenėms, kurių kalbos istoriniu požiūriu buvo nepakankamai atstovaujamos pagrindinėje dirbtinio intelekto plėtroje.

Reikšmė Indijos kalbos technologijai

VAANI mastas ir kalbinė įvairovė daro jį reikšmingu indėliu į daugialingvės kalbos tyrimų sritį, ypač Pietų Azijos kalbų kontekste. Dokumentuodamas kalbėtinas variacijas iš genčių, kaimo ir regioninių bendruomenių kartu su plačiau kalbamomis kalbomis, duomenų rinkinys užfiksuoja Indijos kalbinio paveldo dimensiją, kuri retai atstovaujama kompiuteriniuose ištekliuose. Jo atvira licencija palengvina naudojimą akademinėms institucijoms, vyriausybinėms institucijoms ir pramonės tyrėjams, dirbantiems link įtraukesnių ir atstovaujamų kalbos technologijų.

VAANI

Kategorijos

Temos

Fonas ir plėtra

Duomenų rinkinio sudėtis ir pagrindinės savybės

Palaikomos užduotys ir naudojimo atvejai

Reikšmė Indijos kalbos technologijai