Pozadí a vývoj

VAANI (což znamená "hlas" nebo "řeč" v několika indických jazycích) byla vytvořena Indickým institutem vědy (IISc) v Bangalore jako součást snahy o řešení významného nedostatku zdrojů dat o řeči pro indické jazyky. Jazyková krajina Indie patří mezi nejrozmanitější na světě, zahrnuje stovky jazyků a tisíce dialektů, přičemž většina existujících datových sad o řeči se zaměřuje na úzkou skupinu dobře zdrojovaných jazyků. VAANI byla vyvinuta za účelem rozšíření dostupnosti tréninkových dat pro tento nedostatečně zastoupený jazykový prostor prováděním rozsáhlého sběru dat v terénu napříč geograficky a jazykově rozmanitými oblastmi země.

Data byla shromážděna od přibližně 110 000 mluvčích rozprostřených ve 120 okresech ve 22 indických státech, což odráží cílené úsilí zachytit skutečné regionální a dialektové variace místo spoléhání se na kontrolované studio nahrávky. Datová sada zahrnuje 86 jazyků a dialektů, od hlavních plánovaných jazyků, jako jsou hindština, tamilština, telugština, bengálština, kannadština a malajálamština, po četné regionální varianty a kmenové jazyky včetně gondi, santálštiny, kurukh, wancho a tenyidie, mezi mnoha dalšími.

Složení datové sady a klíčové vlastnosti

VAANI se skládá z přibližně 21 500 hodin audia celkem, což z ní činí jednu z největších vícejazyčných korpusů řeči zaměřených na indické jazyky. Z toho bylo 835 hodin přepsáno, což poskytuje pravdivé textové anotace pro podmnožinu sbírky. Datová sada také zahrnuje multimodální prvky, což ji činí vhodnou pro použití nad rámec konvenčních úloh řeči.

Mezi klíčové charakteristiky datové sady patří:

Pokrytí 86 jazyků a dialektů, včetně mnoha jazyků s nízkými zdroji a kmenových variant
Příspěvky od přibližně 110 000 mluvčích z různorodých geografických a demografických prostředí
21 500 celkových hodin audia s 835 hodinami přepsané řeči
Terénní nahrávky pokrývající 120 okresů ve 22 indických státech
Vydáno pod licencí CC BY 4.0, která umožňuje široké opětovné použití s přiznáním autorství
Podpora jak unimodálních, tak multimodálních výzkumných aplikací

Podporované úkoly a případy použití

VAANI je navržena tak, aby sloužila jako zdroj pro širokou škálu úloh zpracování řeči a jazyka. Výzkumníci a vývojáři ji mohou používat k trénování a hodnocení systémů automatického rozpoznávání řeči (ASR), syntézy textu na řeč (TTS), identifikace mluvčích a modelů identifikace jazyka. Datová sada také podporuje práci na zlepšení řeči a vývoj multimodálních velkých jazykových modelů (LLMs). Její šíře jazykového pokrytí ji činí obzvlášť relevantní pro benchmarkování systémů určených k provozu v rozmanitém jazykovém prostředí Indie.

Vzhledem k zahrnutí mnoha jazyků a dialektů s nízkými zdroji, pro které existují málo nebo žádná předchozí data o řeči, má VAANI zvláštní hodnotu pro výzkumníky zaměřené na budování inkluzivních jazykových technologií. Poskytuje základ pro vývoj nástrojů ASR a zpracování přirozeného jazyka, které by mohly sloužit komunitám, jejichž jazyky historicky chyběly v hlavním vývoji AI.

Význam pro technologie indických jazyků

Rozsah a jazyková rozmanitost VAANI z ní činí významný příspěvek do oblasti vícejazyčného výzkumu řeči, zejména v kontextu jihoasijských jazyků. Dokumentováním mluvených variant z kmenových, venkovských a regionálních komunit vedle více rozšířených jazyků zachycuje datová sada dimenzi jazykového dědictví Indie, která je zřídka zastoupena v výpočetních zdrojích. Její otevřená licence usnadňuje použití akademickými institucemi, vládními orgány a výzkumníky z průmyslu, kteří pracují na inkluzivnějších a reprezentativnějších technologiích řeči.

VAANI

Kategorie

Témata

Pozadí a vývoj

Složení datové sady a klíčové vlastnosti

Podporované úkoly a případy použití

Význam pro technologie indických jazyků