21 500 hours CC-BY 4.0 Training Visos kalbos

Temos

voice audionlp

VAANI yra didelės apimties daugiakalbis kalbos duomenų rinkinys, sukurtas Indijos mokslo instituto (IISc) Bangalore, kuriame yra apie 21 500 valandų garso, surinkto iš maždaug 110 000 kalbėtojų 120 rajonų 22 Indijos valstijose. Jame apima 86 kalbas ir tarmes, kalbamas Indijoje, įskaitant pagrindines numatytas kalbas, taip pat daugybę regioninių ir tautinių variantų, su 835 valandomis transkribuotos kalbos.

Duomenų rinkinys sukurtas palaikyti įvairias kalbos ir kalbos užduotis, įskaitant automatinį kalbos atpažinimą, tekstą į kalbą sintezę, kalbėtojo identifikavimą, kalbos identifikavimą, kalbos gerinimą ir multimodalių kalbos modelių kūrimą. Išleistas pagal CC BY 4.0 licenciją, jis skirtas pirmiausia dirbti su AI sistemų mokymu ir vertinimu, ypač aktualus tyrėjams ir kūrėjams, dirbantiems su mažai išteklių turinčiomis ir nepakankamai atstovaujamomis Indijos kalbomis.

Fonas ir plėtra

VAANI (kuris reiškia „balsas“ arba „kalba“ keliomis Indijos kalbomis) buvo sukurtas Indijos mokslo instituto (IISc) Bangalore kaip dalis pastangų spręsti reikšmingą spragą kalbos duomenų išteklių Indijos kalboms. Indijos kalbinė aplinka yra viena iš įvairesnių pasaulyje, apimanti šimtus kalbų ir tūkstančius dialektų, tačiau dauguma esamų kalbos duomenų rinkinių sutelkti į siaurą gerai išteklių turinčių kalbų rinkinį. VAANI buvo sukurtas siekiant išplėsti mokymo duomenų prieinamumą šioje nepakankamai aptarnaujamoje kalbinėje erdvėje, vykdant didelio masto lauko duomenų rinkimą įvairiose geografiškai ir kalbiškai skirtingose šalies regionuose.

Duomenys buvo surinkti iš maždaug 110 000 kalbėtojų, pasklidusių po 120 rajonų 22 Indijos valstijose, atspindinčių sąmoningą pastangą užfiksuoti tikrą regioninę ir dialektinę įvairovę, o ne remtis kontroliuojamais studijos įrašais. Duomenų rinkinys apima 86 kalbas ir dialektus, pradedant pagrindinėmis numatytomis kalbomis, tokiomis kaip hindi, tamilų, telugų, bengalų, kanada ir malajalam, iki daugybės regioninių variantų ir genčių kalbų, įskaitant Gondi, Santali, Kurukh, Wancho ir Tenyidie, tarp daugelio kitų.

Duomenų rinkinio sudėtis ir pagrindinės savybės

VAANI apima maždaug 21 500 valandų garso, todėl tai yra vienas didžiausių daugialingvių kalbos korpusų, orientuotų į Indijos kalbas. Iš šio kiekio 835 valandos buvo transkribuotos, suteikiant tikrą tekstinę anotaciją tam tikrai kolekcijos daliai. Duomenų rinkinys taip pat apima multimodalius elementus, leidžiančius jį naudoti ne tik tradicinėms kalbos užduotims.

Pagrindinės duomenų rinkinio savybės apima:

  • 86 kalbų ir dialektų aprėptis, įskaitant daugelį mažai išteklių turinčių ir genčių variantų
  • Indėliai iš maždaug 110 000 kalbėtojų iš įvairių geografinių ir demografinių aplinkybių
  • 21 500 valandų bendro garso, iš kurių 835 valandos transkribuotos kalbos
  • Lauko įrašai, apimantys 120 rajonų 22 Indijos valstijose
  • Išleista pagal CC BY 4.0 licenciją, leidžiančią plačiai naudoti su atribucija
  • Parama tiek unimodaliniams, tiek multimodaliniams tyrimų taikymams

Palaikomos užduotys ir naudojimo atvejai

VAANI yra sukurtas kaip išteklius plačiam kalbos ir kalbos apdorojimo užduočių spektrui. Tyrėjai ir kūrėjai gali jį naudoti automatinei kalbos atpažinimo (ASR) sistemų mokymui ir vertinimui, tekstui į kalbą (TTS) sintezės, kalbėtojo identifikavimo ir kalbos identifikavimo modelių kūrimui. Duomenų rinkinys taip pat remia kalbos gerinimo ir multimodalinių didelių kalbos modelių (LLM) kūrimą. Jo kalbų aprėptis daro jį ypač aktualiu sistemų, skirtų veikti įvairioje Indijos kalbinėje aplinkoje, vertinimui.

Atsižvelgiant į tai, kad įtrauktos daugelis mažai išteklių turinčių kalbų ir dialektų, kuriems anksčiau buvo mažai arba visai nebuvo kalbos duomenų, VAANI turi ypatingą vertę tyrėjams, kurie orientuojasi į įtraukiamų kalbos technologijų kūrimą. Jis suteikia pagrindą ASR ir natūralios kalbos apdorojimo įrankių kūrimui, kurie galėtų tarnauti bendruomenėms, kurių kalbos istoriniu požiūriu buvo nepakankamai atstovaujamos pagrindinėje dirbtinio intelekto plėtroje.

Reikšmė Indijos kalbos technologijai

VAANI mastas ir kalbinė įvairovė daro jį reikšmingu indėliu į daugialingvės kalbos tyrimų sritį, ypač Pietų Azijos kalbų kontekste. Dokumentuodamas kalbėtinas variacijas iš genčių, kaimo ir regioninių bendruomenių kartu su plačiau kalbamomis kalbomis, duomenų rinkinys užfiksuoja Indijos kalbinio paveldo dimensiją, kuri retai atstovaujama kompiuteriniuose ištekliuose. Jo atvira licencija palengvina naudojimą akademinėms institucijoms, vyriausybinėms institucijoms ir pramonės tyrėjams, dirbantiems link įtraukesnių ir atstovaujamų kalbos technologijų.

Ataskaita