Fons un attīstība

VAANI (kas nozīmē "balss" vai "runas" vairākās Indijas valodās) tika izveidots Indijas Zinātnes institūtā (IISc) Bengaluru, kā daļa no centieniem risināt nozīmīgu trūkumu runas datu resursos Indijas valodām. Indijas lingvistiskā ainava ir viena no daudzveidīgākajām pasaulē, ietverot simtiem valodu un tūkstošiem dialektu, tomēr lielākā daļa esošo runas datu kopu koncentrējas uz šauru labi resursētu valodu kopumu. VAANI tika izstrādāts, lai paplašinātu apmācību datu pieejamību šajā nepietiekami apkalpotajā lingvistiskajā telpā, veicot plaša mēroga lauka datu vākšanu ģeogrāfiski un lingvistiski daudzveidīgās valsts reģionos.

Dati tika vākti no aptuveni 110 000 runātājiem, kas izplatīti 120 apgabalos 22 Indijas štatos, atspoguļojot apzinātu centienu fiksēt īstu reģionālo un dialektālo variāciju, nevis paļauties uz kontrolētām studijas ierakstēm. Datu kopums aptver 86 valodas un dialektus, sākot no galvenajām plānotajām valodām, piemēram, Hindi, Tamil, Telugu, Bengāļu, Kannada un Malajālam, līdz daudziem reģionālajiem variantiem un ciltīm valodām, tostarp Gondi, Santali, Kurukh, Wancho un Tenyidie, starp daudzām citām.

Datu kopas sastāvs un galvenās iezīmes

VAANI sastāv no aptuveni 21 500 stundām audio kopumā, padarot to par vienu no lielākajām daudzvalodu runas korpusēm, kas koncentrējas uz Indijas valodām. No šīm 835 stundām ir transkribētas, nodrošinot patiesas teksta anotācijas datu kopas apakškopai. Datu kopums arī ietver multimodālus elementus, padarot to piemērotu izmantošanai ārpus tradicionālajām runas uzdevumiem.

Galvenās datu kopas iezīmes ietver:

86 valodu un dialektu pārklājums, tostarp daudzas zema resursu un ciltīm varianti
Kontribūcijas no aptuveni 110 000 runātājiem no dažādām ģeogrāfiskām un demogrāfiskām fona
21 500 kopējās stundas audio ar 835 stundām transkribētas runas
Laika ieraksti, kas aptver 120 apgabalus 22 Indijas štatos
Izlaists ar CC BY 4.0 licenci, kas atļauj plašu atkārtotu izmantošanu ar atsauci
Atbalsts gan unimodālām, gan multimodālām pētniecības lietojumprogrammām

Atbalstītie uzdevumi un lietošanas gadījumi

VAANI ir izstrādāts, lai kalpotu kā resurss plaša spektra runas un valodas apstrādes uzdevumiem. Pētnieki un izstrādātāji to var izmantot automātiskās runas atpazīšanas (ASR) sistēmu apmācībai un novērtēšanai, teksta uz runu (TTS) sintēzei, runātāja identifikācijai un valodas identifikācijas modeļiem. Datu kopums arī atbalsta darbu pie runas uzlabošanas un multimodālu lielo valodu modeļu (LLM) izstrādes. Tās valodu pārklājuma plašums padara to īpaši nozīmīgu sistēmu novērtēšanai, kas paredzētas darbībai Indijas daudzveidīgajā lingvistiskajā vidē.

Ņemot vērā daudzu zema resursu valodu un dialektu iekļaušanu, par kurām iepriekš ir maz vai vispār nav runas datu, VAANI ir īpaša vērtība pētniekiem, kas koncentrējas uz iekļaujošu valodas tehnoloģiju izveidi. Tas nodrošina pamatu ASR un dabiskās valodas apstrādes rīku izstrādei, kas varētu kalpot kopienām, kuru valodas vēsturiski ir bijušas trūcīgas galvenajā AI attīstībā.

Nozīme Indijas valodas tehnoloģijām

VAANI mērogs un lingvistiskā daudzveidība padara to par ievērojamu ieguldījumu daudzvalodu runas pētniecībā, īpaši Dienvidāzijas valodu kontekstā. Dokumentējot runātas variācijas no ciltīm, lauku un reģionālajām kopienām kopā ar plaši runātām valodām, datu kopums fiksē Indijas lingvistiskā mantojuma dimensiju, kas reti tiek pārstāvēta datoru resursos. Tās atklātā licence atvieglo izmantošanu akadēmiskajām iestādēm, valdības iestādēm un nozares pētniekiem, kas strādā pie iekļaujošākām un pārstāvošākām runas tehnoloģijām.

VAANI

Kategorijas

Tēmas

Fons un attīstība

Datu kopas sastāvs un galvenās iezīmes

Atbalstītie uzdevumi un lietošanas gadījumi

Nozīme Indijas valodas tehnoloģijām