Kategorije
Teme
VAANI je obsežen večjezični govorni podatkovni nabor, ki ga je razvil Indian Institute of Science (IISc), Bangalore, in vsebuje približno 21.500 ur zvočnih posnetkov, zbranih od okoli 110.000 govorcev v 120 okrožjih 22 indijskih zveznih držav. Zajema 86 jezikov in narečij, ki se govorijo po vsej Indiji, vključno z glavnimi uradno priznanimi jeziki ter številnimi regionalnimi in plemenskimi različicami, pri čemer vključuje 835 ur transkribiranega govora.
Podatkovni nabor je zasnovan za podporo vrsti govornih in jezikovnih nalog, vključno s samodejnim prepoznavanjem govora, sintezo besedila v govor, identifikacijo govorcev, identifikacijo jezika, izboljšavo govora in razvojem večmodalnih jezikovnih modelov. Objavljen je pod licenco CC BY 4.0 in je namenjen predvsem učenju ter primerjalnemu vrednotenju sistemov umetne inteligence, pri čemer je še posebej pomemben za raziskovalce in razvijalce, ki delajo z indijskimi jeziki z omejenimi viri in premalo zastopanimi jeziki.
Ozadje in razvoj
VAANI (kar v več indijskih jezikih pomeni »glas« ali »govor«) je ustvaril Indian Institute of Science (IISc) v Bangaloreju kot del prizadevanj za odpravo velike vrzeli v virih govornih podatkov za indijske jezike. Jezikovna krajina Indije je med najbolj raznolikimi na svetu, saj obsega na stotine jezikov in tisoče narečij, vendar se večina obstoječih govornih zbirk podatkov osredotoča na ozek nabor dobro podprtih jezikov. VAANI je bil razvit za razširitev razpoložljivosti učnih podatkov za ta zapostavljeni jezikovni prostor z obsežnim terenskim zbiranjem podatkov v geografsko in jezikovno raznolikih regijah države.
Podatki so bili zbrani od približno 110.000 govorcev iz 120 okrožij v 22 indijskih zveznih državah, kar odraža namerno prizadevanje za zajem pristnih regionalnih in narečnih razlik, namesto da bi se zanašali na nadzorovane studijske posnetke. Zbirka podatkov zajema 86 jezikov in narečij, od večjih uradno priznanih jezikov, kot so Hindi, Tamil, Telugu, Bengali, Kannada in Malayalam, do številnih regionalnih različic in plemenskih jezikov, vključno z Gondi, Santali, Kurukh, Wancho in Tenyidie ter številnimi drugimi.
Sestava zbirke podatkov in ključne značilnosti
VAANI skupaj obsega približno 21.500 ur zvoka, zaradi česar je eden največjih večjezičnih govornih korpusov, osredotočenih na indijske jezike. Od tega je bilo 835 ur transkribiranih, kar zagotavlja besedilne anotacije z referenčno resnico za del zbirke. Zbirka podatkov vključuje tudi multimodalne elemente, zaradi česar je uporabna tudi zunaj običajnih govornih nalog.
Ključne značilnosti zbirke podatkov vključujejo:
- Zajem 86 jezikov in narečij, vključno s številnimi jezikovnimi različicami z malo viri in plemenskimi jeziki
- Prispevke približno 110.000 govorcev iz raznolikih geografskih in demografskih okolij
- Skupno 21.500 ur zvoka, od tega 835 ur transkribiranega govora
- Terenske posnetke iz 120 okrožij v 22 indijskih zveznih državah
- Objavo pod licenco CC BY 4.0, ki omogoča široko ponovno uporabo ob navedbi vira
- Podporo za unimodalne in multimodalne raziskovalne uporabe
Podprte naloge in primeri uporabe
VAANI je zasnovan kot vir za širok nabor nalog obdelave govora in jezika. Raziskovalci in razvijalci ga lahko uporabljajo za učenje in vrednotenje sistemov za samodejno prepoznavanje govora (ASR), sintezo besedila v govor (TTS), identifikacijo govorcev in modele za prepoznavanje jezika. Zbirka podatkov podpira tudi delo na izboljšavi govora in razvoj multimodalnih velikih jezikovnih modelov (LLMs). Zaradi širokega jezikovnega obsega je še posebej pomembna za primerjalno vrednotenje sistemov, namenjenih delovanju v raznolikem jezikovnem okolju Indije.
Glede na vključitev številnih jezikov in narečij z malo viri, za katere obstaja malo ali nič predhodnih govornih podatkov, ima VAANI posebno vrednost za raziskovalce, osredotočene na gradnjo vključujočih jezikovnih tehnologij. Zagotavlja osnovo za razvoj orodij za ASR in obdelavo naravnega jezika, ki bi lahko služila skupnostim, katerih jeziki so bili zgodovinsko odsotni iz osrednjega razvoja umetne inteligence.
Pomen za tehnologijo indijskih jezikov
Obseg in jezikovna raznolikost VAANI pomenita pomemben prispevek k področju večjezičnih govornih raziskav, zlasti v kontekstu južnoazijskih jezikov. Z dokumentiranjem govorjenih različic iz plemenskih, podeželskih in regionalnih skupnosti ob bolj razširjenih jezikih zbirka podatkov zajema razsežnost indijske jezikovne dediščine, ki je v računalniških virih redko zastopana. Njena odprta licenca omogoča uporabo akademskim ustanovam, državnim organom in industrijskim raziskovalcem, ki si prizadevajo za bolj vključujoče in reprezentativne govorne tehnologije.