Name: VAANI
Creator: Indian Institute of Science
License: https://creativecommons.org/licenses/by/4.0/

Ozadje in razvoj

VAANI (kar v več indijskih jezikih pomeni »glas« ali »govor«) je ustvaril Indian Institute of Science (IISc) v Bangaloreju kot del prizadevanj za odpravo velike vrzeli v virih govornih podatkov za indijske jezike. Jezikovna krajina Indije je med najbolj raznolikimi na svetu, saj obsega na stotine jezikov in tisoče narečij, vendar se večina obstoječih govornih zbirk podatkov osredotoča na ozek nabor dobro podprtih jezikov. VAANI je bil razvit za razširitev razpoložljivosti učnih podatkov za ta zapostavljeni jezikovni prostor z obsežnim terenskim zbiranjem podatkov v geografsko in jezikovno raznolikih regijah države.

Podatki so bili zbrani od približno 110.000 govorcev iz 120 okrožij v 22 indijskih zveznih državah, kar odraža namerno prizadevanje za zajem pristnih regionalnih in narečnih razlik, namesto da bi se zanašali na nadzorovane studijske posnetke. Zbirka podatkov zajema 86 jezikov in narečij, od večjih uradno priznanih jezikov, kot so Hindi, Tamil, Telugu, Bengali, Kannada in Malayalam, do številnih regionalnih različic in plemenskih jezikov, vključno z Gondi, Santali, Kurukh, Wancho in Tenyidie ter številnimi drugimi.

Sestava zbirke podatkov in ključne značilnosti

VAANI skupaj obsega približno 21.500 ur zvoka, zaradi česar je eden največjih večjezičnih govornih korpusov, osredotočenih na indijske jezike. Od tega je bilo 835 ur transkribiranih, kar zagotavlja besedilne anotacije z referenčno resnico za del zbirke. Zbirka podatkov vključuje tudi multimodalne elemente, zaradi česar je uporabna tudi zunaj običajnih govornih nalog.

Ključne značilnosti zbirke podatkov vključujejo:

Zajem 86 jezikov in narečij, vključno s številnimi jezikovnimi različicami z malo viri in plemenskimi jeziki
Prispevke približno 110.000 govorcev iz raznolikih geografskih in demografskih okolij
Skupno 21.500 ur zvoka, od tega 835 ur transkribiranega govora
Terenske posnetke iz 120 okrožij v 22 indijskih zveznih državah
Objavo pod licenco CC BY 4.0, ki omogoča široko ponovno uporabo ob navedbi vira
Podporo za unimodalne in multimodalne raziskovalne uporabe

Podprte naloge in primeri uporabe

VAANI je zasnovan kot vir za širok nabor nalog obdelave govora in jezika. Raziskovalci in razvijalci ga lahko uporabljajo za učenje in vrednotenje sistemov za samodejno prepoznavanje govora (ASR), sintezo besedila v govor (TTS), identifikacijo govorcev in modele za prepoznavanje jezika. Zbirka podatkov podpira tudi delo na izboljšavi govora in razvoj multimodalnih velikih jezikovnih modelov (LLMs). Zaradi širokega jezikovnega obsega je še posebej pomembna za primerjalno vrednotenje sistemov, namenjenih delovanju v raznolikem jezikovnem okolju Indije.

Glede na vključitev številnih jezikov in narečij z malo viri, za katere obstaja malo ali nič predhodnih govornih podatkov, ima VAANI posebno vrednost za raziskovalce, osredotočene na gradnjo vključujočih jezikovnih tehnologij. Zagotavlja osnovo za razvoj orodij za ASR in obdelavo naravnega jezika, ki bi lahko služila skupnostim, katerih jeziki so bili zgodovinsko odsotni iz osrednjega razvoja umetne inteligence.

Pomen za tehnologijo indijskih jezikov

Obseg in jezikovna raznolikost VAANI pomenita pomemben prispevek k področju večjezičnih govornih raziskav, zlasti v kontekstu južnoazijskih jezikov. Z dokumentiranjem govorjenih različic iz plemenskih, podeželskih in regionalnih skupnosti ob bolj razširjenih jezikih zbirka podatkov zajema razsežnost indijske jezikovne dediščine, ki je v računalniških virih redko zastopana. Njena odprta licenca omogoča uporabo akademskim ustanovam, državnim organom in industrijskim raziskovalcem, ki si prizadevajo za bolj vključujoče in reprezentativne govorne tehnologije.

VAANI

Kategorije

Teme

Ozadje in razvoj

Sestava zbirke podatkov in ključne značilnosti

Podprte naloge in primeri uporabe

Pomen za tehnologijo indijskih jezikov