Kategorijas
Tēmas
VAANI ir liela mēroga daudzvalodu runas datu kopums, ko izstrādājusi Indijas Zinātnes institūts (IISc), Bengaluru, un tas satur aptuveni 21,500 stundas audio, kas savākts no apmēram 110,000 runātājiem 120 rajonos 22 Indijas štatos. Tas aptver 86 valodas un dialektus, kas tiek runāti visā Indijā, tostarp galvenās plānotās valodas, kā arī daudzas reģionālās un cilšu variācijas, ar 835 stundām transkribētas runas.
Datu kopums ir izstrādāts, lai atbalstītu dažādas runas un valodas uzdevumus, tostarp automātisko runas atpazīšanu, tekstu uz runu sintēzi, runātāja identifikāciju, valodas identifikāciju, runas uzlabošanu un multimodālo valodas modeļu izstrādi. Tas ir publicēts ar CC BY 4.0 licenci un galvenokārt paredzēts AI sistēmu apmācībai un salīdzināšanai, ar īpašu nozīmi pētniekiem un izstrādātājiem, kas strādā pie zema resursu un nepietiekami pārstāvētām Indijas valodām.
Fons un attīstība
VAANI (kas nozīmē "balss" vai "runas" vairākās Indijas valodās) tika izveidots Indijas Zinātnes institūtā (IISc) Bengaluru, kā daļa no centieniem risināt nozīmīgu trūkumu runas datu resursos Indijas valodām. Indijas lingvistiskā ainava ir viena no daudzveidīgākajām pasaulē, ietverot simtiem valodu un tūkstošiem dialektu, tomēr lielākā daļa esošo runas datu kopu koncentrējas uz šauru labi resursētu valodu kopumu. VAANI tika izstrādāts, lai paplašinātu apmācību datu pieejamību šajā nepietiekami apkalpotajā lingvistiskajā telpā, veicot plaša mēroga lauka datu vākšanu ģeogrāfiski un lingvistiski daudzveidīgās valsts reģionos.
Dati tika vākti no aptuveni 110 000 runātājiem, kas izplatīti 120 apgabalos 22 Indijas štatos, atspoguļojot apzinātu centienu fiksēt īstu reģionālo un dialektālo variāciju, nevis paļauties uz kontrolētām studijas ierakstēm. Datu kopums aptver 86 valodas un dialektus, sākot no galvenajām plānotajām valodām, piemēram, Hindi, Tamil, Telugu, Bengāļu, Kannada un Malajālam, līdz daudziem reģionālajiem variantiem un ciltīm valodām, tostarp Gondi, Santali, Kurukh, Wancho un Tenyidie, starp daudzām citām.
Datu kopas sastāvs un galvenās iezīmes
VAANI sastāv no aptuveni 21 500 stundām audio kopumā, padarot to par vienu no lielākajām daudzvalodu runas korpusēm, kas koncentrējas uz Indijas valodām. No šīm 835 stundām ir transkribētas, nodrošinot patiesas teksta anotācijas datu kopas apakškopai. Datu kopums arī ietver multimodālus elementus, padarot to piemērotu izmantošanai ārpus tradicionālajām runas uzdevumiem.
Galvenās datu kopas iezīmes ietver:
- 86 valodu un dialektu pārklājums, tostarp daudzas zema resursu un ciltīm varianti
- Kontribūcijas no aptuveni 110 000 runātājiem no dažādām ģeogrāfiskām un demogrāfiskām fona
- 21 500 kopējās stundas audio ar 835 stundām transkribētas runas
- Laika ieraksti, kas aptver 120 apgabalus 22 Indijas štatos
- Izlaists ar CC BY 4.0 licenci, kas atļauj plašu atkārtotu izmantošanu ar atsauci
- Atbalsts gan unimodālām, gan multimodālām pētniecības lietojumprogrammām
Atbalstītie uzdevumi un lietošanas gadījumi
VAANI ir izstrādāts, lai kalpotu kā resurss plaša spektra runas un valodas apstrādes uzdevumiem. Pētnieki un izstrādātāji to var izmantot automātiskās runas atpazīšanas (ASR) sistēmu apmācībai un novērtēšanai, teksta uz runu (TTS) sintēzei, runātāja identifikācijai un valodas identifikācijas modeļiem. Datu kopums arī atbalsta darbu pie runas uzlabošanas un multimodālu lielo valodu modeļu (LLM) izstrādes. Tās valodu pārklājuma plašums padara to īpaši nozīmīgu sistēmu novērtēšanai, kas paredzētas darbībai Indijas daudzveidīgajā lingvistiskajā vidē.
Ņemot vērā daudzu zema resursu valodu un dialektu iekļaušanu, par kurām iepriekš ir maz vai vispār nav runas datu, VAANI ir īpaša vērtība pētniekiem, kas koncentrējas uz iekļaujošu valodas tehnoloģiju izveidi. Tas nodrošina pamatu ASR un dabiskās valodas apstrādes rīku izstrādei, kas varētu kalpot kopienām, kuru valodas vēsturiski ir bijušas trūcīgas galvenajā AI attīstībā.
Nozīme Indijas valodas tehnoloģijām
VAANI mērogs un lingvistiskā daudzveidība padara to par ievērojamu ieguldījumu daudzvalodu runas pētniecībā, īpaši Dienvidāzijas valodu kontekstā. Dokumentējot runātas variācijas no ciltīm, lauku un reģionālajām kopienām kopā ar plaši runātām valodām, datu kopums fiksē Indijas lingvistiskā mantojuma dimensiju, kas reti tiek pārstāvēta datoru resursos. Tās atklātā licence atvieglo izmantošanu akadēmiskajām iestādēm, valdības iestādēm un nozares pētniekiem, kas strādā pie iekļaujošākām un pārstāvošākām runas tehnoloģijām.