Фон и Развитие

VAANI (което означава "глас" или "реч" на няколко индийски езика) беше създаден от Индийския институт по наука (IISc) в Бангалор като част от усилие за справяне със значителната пропаст в ресурсите за речеви данни за индийските езици. Лингвистичният ландшафт на Индия е сред най-разнообразните в света, обхващащ стотици езици и хиляди диалекти, но повечето от съществуващите речеви набори се фокусират върху тесен набор от добре ресурсирани езици. VAANI беше разработен, за да разшири наличността на обучителни данни за това недостатъчно обслужвано лингвистично пространство, като проведе мащабно събиране на полеви данни в географски и лингвистично разнообразни региони на страната.

Данните бяха събрани от приблизително 110,000 говорители, разпределени в 120 окръга в 22 индийски щата, отразявайки целенасочено усилие да се улови истинска регионална и диалектна вариация, вместо да се разчита на контролирани студийни записи. Наборът от данни обхваща 86 езика и диалекта, вариращи от основни планирани езици като Хинди, Тамил, Телугу, Бенгали, Каннада и Малаялам до многобройни регионални разновидности и племенни езици, включително Гонди, Сантали, Курук, Уаншо и Тенииди, наред с много други.

Състав на Набора от Данни и Ключови Характеристики

VAANI се състои от приблизително 21,500 часа аудио общо, което го прави един от най-големите многоезични речеви корпуси, фокусирани върху индийските езици. От тях, 835 часа са били транскрибирани, предоставяйки текстови анотации за подмножество от колекцията. Наборът от данни също така включва мултимодални елементи, което го позиционира за използване извън конвенционалните речеви задачи.

Ключови характеристики на набора от данни включват:

Обхват на 86 езика и диалекта, включително много с ниски ресурси и племенни разновидности
Приноси от около 110,000 говорители с разнообразен географски и демографски произход
21,500 общо часа аудио с 835 часа транскрибирана реч
Полеви записи, обхващащи 120 окръга в 22 индийски щата
Публикуван под лиценз CC BY 4.0, позволяващ широко повторно използване с атрибуция
Подкрепа за както унимодални, така и мултимодални изследователски приложения

Поддържани Задачи и Приложения

VAANI е проектиран да служи като ресурс за широк спектър от задачи по обработка на реч и език. Изследователи и разработчици могат да го използват за обучение и оценка на системи за автоматично разпознаване на реч (ASR), синтез на текст в реч (TTS), идентификация на говорители и модели за идентификация на език. Наборът от данни също така подкрепя работа по подобряване на речта и разработването на мултимодални големи езикови модели (LLMs). Неговият обхват на езиково покритие го прави особено релевантен за оценка на системи, предназначени да работят в разнообразната лингвистична среда на Индия.

С оглед на включването на много езици и диалекти с ниски ресурси, за които съществуват малко или никакви предишни речеви данни, VAANI има особена стойност за изследователи, фокусирани върху изграждането на инклузивни езикови технологии. Той предоставя основа за разработване на инструменти за ASR и обработка на естествен език, които биха могли да обслужват общности, чиито езици исторически са били отсъстващи от основната разработка на ИИ.

Значение за Технологията на Индийските Езици

Мащабът и лингвистичното разнообразие на VAANI го правят забележителен принос в областта на многоезичното речево изследване, особено в контекста на южноазиатските езици. Чрез документиране на говорими разновидности от племенни, селски и регионални общности наред с по-широко говорените езици, наборът от данни улавя измерение на лингвистичното наследство на Индия, което рядко е представено в компютърни ресурси. Неговият отворен лиценз улеснява използването му от академични институции, правителствени органи и изследователи от индустрията, работещи за по-инклузивни и представителни речеви технологии.

VAANI

Категории

Теми

Фон и Развитие

Състав на Набора от Данни и Ключови Характеристики

Поддържани Задачи и Приложения

Значение за Технологията на Индийските Езици