Kategorie
Témata
VAANI je rozsáhlá vícejazyčná databáze řeči vyvinutá Indickým institutem vědy (IISc) v Bangalore, která obsahuje přibližně 21 500 hodin audia shromážděného od přibližně 110 000 mluvčích z 120 okresů ve 22 indických státech. Pokrývá 86 jazyků a dialektů mluvených v Indii, včetně hlavních plánovaných jazyků a mnoha regionálních a kmenových variant, s 835 hodinami přepsané řeči.
Databáze je navržena tak, aby podporovala řadu úloh v oblasti řeči a jazyka, včetně automatického rozpoznávání řeči, syntézy textu na řeč, identifikace mluvčího, identifikace jazyka, zlepšení řeči a vývoje multimodálních jazykových modelů. Byla vydána pod licencí CC BY 4.0 a je určena především pro trénink a benchmarkování AI systémů, s zvláštním významem pro výzkumníky a vývojáře pracující na jazykách s nízkými zdroji a nedostatečně zastoupených indických jazycích.
Pozadí a vývoj
VAANI (což znamená "hlas" nebo "řeč" v několika indických jazycích) byla vytvořena Indickým institutem vědy (IISc) v Bangalore jako součást snahy o řešení významného nedostatku zdrojů dat o řeči pro indické jazyky. Jazyková krajina Indie patří mezi nejrozmanitější na světě, zahrnuje stovky jazyků a tisíce dialektů, přičemž většina existujících datových sad o řeči se zaměřuje na úzkou skupinu dobře zdrojovaných jazyků. VAANI byla vyvinuta za účelem rozšíření dostupnosti tréninkových dat pro tento nedostatečně zastoupený jazykový prostor prováděním rozsáhlého sběru dat v terénu napříč geograficky a jazykově rozmanitými oblastmi země.
Data byla shromážděna od přibližně 110 000 mluvčích rozprostřených ve 120 okresech ve 22 indických státech, což odráží cílené úsilí zachytit skutečné regionální a dialektové variace místo spoléhání se na kontrolované studio nahrávky. Datová sada zahrnuje 86 jazyků a dialektů, od hlavních plánovaných jazyků, jako jsou hindština, tamilština, telugština, bengálština, kannadština a malajálamština, po četné regionální varianty a kmenové jazyky včetně gondi, santálštiny, kurukh, wancho a tenyidie, mezi mnoha dalšími.
Složení datové sady a klíčové vlastnosti
VAANI se skládá z přibližně 21 500 hodin audia celkem, což z ní činí jednu z největších vícejazyčných korpusů řeči zaměřených na indické jazyky. Z toho bylo 835 hodin přepsáno, což poskytuje pravdivé textové anotace pro podmnožinu sbírky. Datová sada také zahrnuje multimodální prvky, což ji činí vhodnou pro použití nad rámec konvenčních úloh řeči.
Mezi klíčové charakteristiky datové sady patří:
- Pokrytí 86 jazyků a dialektů, včetně mnoha jazyků s nízkými zdroji a kmenových variant
- Příspěvky od přibližně 110 000 mluvčích z různorodých geografických a demografických prostředí
- 21 500 celkových hodin audia s 835 hodinami přepsané řeči
- Terénní nahrávky pokrývající 120 okresů ve 22 indických státech
- Vydáno pod licencí CC BY 4.0, která umožňuje široké opětovné použití s přiznáním autorství
- Podpora jak unimodálních, tak multimodálních výzkumných aplikací
Podporované úkoly a případy použití
VAANI je navržena tak, aby sloužila jako zdroj pro širokou škálu úloh zpracování řeči a jazyka. Výzkumníci a vývojáři ji mohou používat k trénování a hodnocení systémů automatického rozpoznávání řeči (ASR), syntézy textu na řeč (TTS), identifikace mluvčích a modelů identifikace jazyka. Datová sada také podporuje práci na zlepšení řeči a vývoj multimodálních velkých jazykových modelů (LLMs). Její šíře jazykového pokrytí ji činí obzvlášť relevantní pro benchmarkování systémů určených k provozu v rozmanitém jazykovém prostředí Indie.
Vzhledem k zahrnutí mnoha jazyků a dialektů s nízkými zdroji, pro které existují málo nebo žádná předchozí data o řeči, má VAANI zvláštní hodnotu pro výzkumníky zaměřené na budování inkluzivních jazykových technologií. Poskytuje základ pro vývoj nástrojů ASR a zpracování přirozeného jazyka, které by mohly sloužit komunitám, jejichž jazyky historicky chyběly v hlavním vývoji AI.
Význam pro technologie indických jazyků
Rozsah a jazyková rozmanitost VAANI z ní činí významný příspěvek do oblasti vícejazyčného výzkumu řeči, zejména v kontextu jihoasijských jazyků. Dokumentováním mluvených variant z kmenových, venkovských a regionálních komunit vedle více rozšířených jazyků zachycuje datová sada dimenzi jazykového dědictví Indie, která je zřídka zastoupena v výpočetních zdrojích. Její otevřená licence usnadňuje použití akademickými institucemi, vládními orgány a výzkumníky z průmyslu, kteří pracují na inkluzivnějších a reprezentativnějších technologiích řeči.