Kategórie
Témy
VAANI je rozsiahly viacjazyčný dátový súbor reči vyvinutý Indickým inštitútom vedy (IISc) v Bangalore. Obsahuje približne 21 500 hodín zvukových nahrávok zhromaždených od približne 110 000 hovoriacich naprieč 120 okresmi v 22 indických štátoch. Pokrýva 86 jazykov a dialektov používaných v Indii, vrátane hlavných úradných jazykov aj mnohých regionálnych a kmeňových variantov, pričom obsahuje 835 hodín prepisovanej reči.
Dátový súbor je navrhnutý na podporu rôznych úloh týkajúcich sa reči a jazyka, vrátane automatického rozpoznávania reči, syntézy reči z textu, identifikácie hovoriaceho, identifikácie jazyka, vylepšovania (zosilňovania) reči a vývoja multimodálnych jazykových modelov. Je sprístupnený pod licenciou CC BY 4.0 a je určený predovšetkým na trénovanie a benchmarkovanie systémov umelej inteligencie, pričom má osobitný význam pre výskumníkov a vývojárov pracujúcich na málo zdrojových a nedostatočne zastúpených indických jazykoch.
Kontext a vývoj
VAANI (čo znamená „hlas“ alebo „reč“ v niekoľkých indických jazykoch) vytvoril Indický inštitút vedy (IISc) v Bangalore ako súčasť snahy riešiť výraznú medzeru v zdrojoch rečových dát pre indické jazyky. Jazyková krajina Indie patrí medzi najrozmanitejšie na svete – zahŕňa stovky jazykov a tisíce dialektov – no väčšina existujúcich rečových dátových súborov sa zameriava na úzky okruh dobre podporovaných jazykov. VAANI vzniklo s cieľom rozšíriť dostupnosť tréningových dát pre túto nedostatočne obsluhovanú jazykovú oblasť realizovaním rozsiahleho terénneho zberu dát v geograficky aj jazykovo rôznorodých regiónoch krajiny.
Dáta sa získali približne od 110 000 hovoriacich rozmiestnených v 120 okresoch v 22 indických štátoch, čo odráža zámer zachytiť skutočné regionálne a dialektálne odlišnosti, nie sa spoliehať na kontrolované nahrávky v štúdiu. Dátový súbor pokrýva 86 jazykov a dialektov – od hlavných plánovaných jazykov, ako sú hindčina, tamilčina, telugčina, bengálčina, kannadčina a malajálamčina, až po početné regionálne varianty a kmeňové jazyky vrátane gondí, santálčiny, kuruchčiny, wancho a tenyidie, medzi mnohými ďalšími.
Zloženie dátového súboru a kľúčové vlastnosti
VAANI tvorí približne 21 500 hodín zvuku spolu, čím sa radí medzi najväčšie viacjazyčné rečové korpusy zamerané na indické jazyky. Z toho je 835 hodín prepisovaných, čo poskytuje textové anotácie ako „pravdu na zemi“ pre podmnožinu zbierky. Dátový súbor zároveň obsahuje aj multimodálne prvky, čím je pripravený na použitie aj mimo konvenčných úloh týkajúcich sa reči.
Medzi kľúčové charakteristiky dátového súboru patrí:
- Pokrývanie 86 jazykov a dialektov vrátane mnohých málo zdrojových a kmeňových variantov
- Príspevky približne od 110 000 hovoriacich z rôznorodých geografických a demografických prostredí
- 21 500 hodín zvuku spolu s 835 hodinami prepisovanej reči
- Terénne nahrávky pokrývajúce 120 okresov v 22 indických štátoch
- Uvoľnené pod licenciou CC BY 4.0, ktorá umožňuje široké opätovné použitie s uvedením zdroja
- Podpora výskumných aplikácií v unimodálnom aj multimodálnom režime
Podporované úlohy a použitia
VAANI je navrhnuté tak, aby slúžilo ako zdroj pre širokú škálu úloh spracovania reči a jazyka. Výskumníci a vývojári ho môžu použiť na trénovanie a vyhodnocovanie systémov automatického rozpoznávania reči (ASR), syntézy textu na reč (TTS), modelov identifikácie hovoriaceho a identifikácie jazyka. Dátový súbor podporuje aj prácu na zlepšovaní kvality reči a vývoj multimodálnych veľkých jazykových modelov (LLM). Vďaka šírke pokrytia jazykov je obzvlášť relevantný pre porovnávanie systémov, ktoré majú fungovať v rôznorodom jazykovom prostredí Indie.
Keďže sú v ňom zahrnuté mnohé málo zdrojové jazyky a dialekty, pre ktoré existuje len málo alebo žiadne predchádzajúce rečové dáta, VAANI má osobitnú hodnotu pre výskumníkov zameraných na budovanie inkluzívnych jazykových technológií. Poskytuje základ pre vývoj nástrojov ASR a spracovania prirodzeného jazyka, ktoré by mohli slúžiť komunitám, ktorých jazyky boli v minulosti v hlavnom prúde vývoja AI často neprítomné.
Význam pre technológie indických jazykov
Rozsah a jazyková rozmanitosť VAANI predstavujú významný príspevok do oblasti viacjazyjného výskumu reči, najmä v kontexte jazykov južnej Ázie. Tým, že dokumentuje hovorené varianty kmeňových, vidieckych a regionálnych komunít spolu s jazykmi, ktoré sa používajú širšie, dátový súbor zachytáva dimenziu jazykového dedičstva Indie, ktorá sa v počítačových zdrojoch len zriedkavo objavuje. Jeho otvorená licencia uľahčuje použitie akademickým inštitúciám, orgánom verejnej správy aj výskumníkom z priemyslu, ktorí pracujú na inkluzívnejších a reprezentatívnejších rečových technológiách.