Позадина и развој

VAANI (што значи „глас“ или „говор“ на неколку индиски јазици) е создаден од Индискиот институт за наука (IISc) во Бангалор, како дел од напорите да се адресира значителниот јаз во ресурсите за говорни податоци за индиските јазици. Лингвистичкиот пејзаж на Индија е меѓу најразновидните во светот, опфаќајќи стотици јазици и илјадници дијалекти, но поголемиот дел од постојните збирки говорни податоци се фокусираат на тесен опсег на добро опслужени јазици. VAANI е развиен за да ја прошири достапноста на материјали за обука во ова недоволно покриено јазично подрачје, спроведувајќи собирање теренски податоци во голем обем низ географски и лингвистички различни региони во земјата.

Податоците се собирани од приближно 110.000 говорници распоредени низ 120 окрузи во 22 индиски држави, што одразува намерен напор да се долови вистинската регионална и дијалектална варијација, наместо да се потпира на контролирани снимки во студио. Збирката опфаќа 86 јазици и дијалекти, од големи закажани јазици како хинди, тамил, телугу, бенгалски, каннада и малајалам, до бројни регионални варијанти и племенски јазици, вклучувајќи Gondi, Santali, Kurukh, Wancho и Tenyidie, меѓу многу други.

Состав на збирката и клучни карактеристики

VAANI вклучува вкупно приближно 21.500 часа аудио, што ја прави една од најголемите мултилингвални збирки говорни податоци фокусирани на индиските јазици. Од тоа, 835 часа се транскрибирани, обезбедувајќи текстуални анотации со „вистинска основа“ за подмножество од збирката. Збирката вклучува и мултимодални елементи, позиционирајќи ја за употреба надвор од конвенционалните задачи за говор.

Клучните карактеристики на збирката вклучуваат:

Покриеност на 86 јазици и дијалекти, вклучувајќи многу варијанти со ниски ресурси и племенски варијанти
Придонеси од околу 110.000 говорници низ различни географски и демографски средини
21.500 вкупни часови аудио со 835 часа транскрибиран говор
Теренски снимки низ 120 окрузи во 22 индиски држави
Објавена под лиценца CC BY 4.0, што овозможува широко повторно користење со наведување извор
Поддршка и за унимодални и за мултимодални истражувачки апликации

Поддржани задачи и примери на употреба

VAANI е дизајниран да служи како ресурс за широк спектар задачи за обработка на говор и јазик. Истражувачите и развивачите можат да го користат за обука и евалуација на системи за автоматско препознавање говор (ASR), синтеза говор-према-текст (TTS), идентификација на говорник и модели за идентификација на јазик. Збирката исто така поддржува работа на подобрување на говорот и развој на мултимодални големи јазични модели (LLMs). Неговиот широк опфат на јазици го прави особено релевантен за бенчмаркинг на системи наменети да функционираат во разновидната јазична средина на Индија.

Со оглед на тоа што се вклучени многу јазици и дијалекти со ниски ресурси за кои постои малку или никакви претходни говорни податоци, VAANI има посебна вредност за истражувачи фокусирани на градење инклузивни јазични технологии. Тој обезбедува основа за развој на алатки за ASR и обработка на природен јазик кои би можеле да им служат на заедници чиј јазик историски бил отсутен од мејнстрим развојот на вештачка интелигенција.

Значење за технологиите на индиските јазици

Обемот и лингвистичката разновидност на VAANI ја прават значаен придонес во областа на мултилингвалното истражување на говор, особено во контекст на јазиците од Јужна Азија. Со документирање на говорните варијанти од племенски, рурални и регионални заедници, заедно со пошироко зборуваните јазици, збирката доловува димензија од лингвистичкото наследство на Индија која ретко е застапена во компјутерските ресурси. Неговата отворена лиценца го олеснува користењето од академски институции, државни органи и истражувачи од индустријата кои работат кон поинклузивни и поразновидни технологии за говор.

VAANI

Категории

Теми

Позадина и развој

Состав на збирката и клучни карактеристики

Поддржани задачи и примери на употреба

Значење за технологиите на индиските јазици