Kontext a vývoj

VAANI (čo znamená „hlas“ alebo „reč“ v niekoľkých indických jazykoch) vytvoril Indický inštitút vedy (IISc) v Bangalore ako súčasť snahy riešiť výraznú medzeru v zdrojoch rečových dát pre indické jazyky. Jazyková krajina Indie patrí medzi najrozmanitejšie na svete – zahŕňa stovky jazykov a tisíce dialektov – no väčšina existujúcich rečových dátových súborov sa zameriava na úzky okruh dobre podporovaných jazykov. VAANI vzniklo s cieľom rozšíriť dostupnosť tréningových dát pre túto nedostatočne obsluhovanú jazykovú oblasť realizovaním rozsiahleho terénneho zberu dát v geograficky aj jazykovo rôznorodých regiónoch krajiny.

Dáta sa získali približne od 110 000 hovoriacich rozmiestnených v 120 okresoch v 22 indických štátoch, čo odráža zámer zachytiť skutočné regionálne a dialektálne odlišnosti, nie sa spoliehať na kontrolované nahrávky v štúdiu. Dátový súbor pokrýva 86 jazykov a dialektov – od hlavných plánovaných jazykov, ako sú hindčina, tamilčina, telugčina, bengálčina, kannadčina a malajálamčina, až po početné regionálne varianty a kmeňové jazyky vrátane gondí, santálčiny, kuruchčiny, wancho a tenyidie, medzi mnohými ďalšími.

Zloženie dátového súboru a kľúčové vlastnosti

VAANI tvorí približne 21 500 hodín zvuku spolu, čím sa radí medzi najväčšie viacjazyčné rečové korpusy zamerané na indické jazyky. Z toho je 835 hodín prepisovaných, čo poskytuje textové anotácie ako „pravdu na zemi“ pre podmnožinu zbierky. Dátový súbor zároveň obsahuje aj multimodálne prvky, čím je pripravený na použitie aj mimo konvenčných úloh týkajúcich sa reči.

Medzi kľúčové charakteristiky dátového súboru patrí:

Pokrývanie 86 jazykov a dialektov vrátane mnohých málo zdrojových a kmeňových variantov
Príspevky približne od 110 000 hovoriacich z rôznorodých geografických a demografických prostredí
21 500 hodín zvuku spolu s 835 hodinami prepisovanej reči
Terénne nahrávky pokrývajúce 120 okresov v 22 indických štátoch
Uvoľnené pod licenciou CC BY 4.0, ktorá umožňuje široké opätovné použitie s uvedením zdroja
Podpora výskumných aplikácií v unimodálnom aj multimodálnom režime

Podporované úlohy a použitia

VAANI je navrhnuté tak, aby slúžilo ako zdroj pre širokú škálu úloh spracovania reči a jazyka. Výskumníci a vývojári ho môžu použiť na trénovanie a vyhodnocovanie systémov automatického rozpoznávania reči (ASR), syntézy textu na reč (TTS), modelov identifikácie hovoriaceho a identifikácie jazyka. Dátový súbor podporuje aj prácu na zlepšovaní kvality reči a vývoj multimodálnych veľkých jazykových modelov (LLM). Vďaka šírke pokrytia jazykov je obzvlášť relevantný pre porovnávanie systémov, ktoré majú fungovať v rôznorodom jazykovom prostredí Indie.

Keďže sú v ňom zahrnuté mnohé málo zdrojové jazyky a dialekty, pre ktoré existuje len málo alebo žiadne predchádzajúce rečové dáta, VAANI má osobitnú hodnotu pre výskumníkov zameraných na budovanie inkluzívnych jazykových technológií. Poskytuje základ pre vývoj nástrojov ASR a spracovania prirodzeného jazyka, ktoré by mohli slúžiť komunitám, ktorých jazyky boli v minulosti v hlavnom prúde vývoja AI často neprítomné.

Význam pre technológie indických jazykov

Rozsah a jazyková rozmanitosť VAANI predstavujú významný príspevok do oblasti viacjazyjného výskumu reči, najmä v kontexte jazykov južnej Ázie. Tým, že dokumentuje hovorené varianty kmeňových, vidieckych a regionálnych komunít spolu s jazykmi, ktoré sa používajú širšie, dátový súbor zachytáva dimenziu jazykového dedičstva Indie, ktorá sa v počítačových zdrojoch len zriedkavo objavuje. Jeho otvorená licencia uľahčuje použitie akademickým inštitúciám, orgánom verejnej správy aj výskumníkom z priemyslu, ktorí pracujú na inkluzívnejších a reprezentatívnejších rečových technológiách.

VAANI

Kategórie

Témy

Kontext a vývoj

Zloženie dátového súboru a kľúčové vlastnosti

Podporované úlohy a použitia

Význam pre technológie indických jazykov