Name: VAANI
Creator: Indian Institute of Science
License: https://creativecommons.org/licenses/by/4.0/

Предпосылки и разработка

VAANI (что означает «голос» или «речь» на нескольких индийских языках) был создан Indian Institute of Science (IISc) в Bangalore в рамках усилий по устранению значительного дефицита речевых данных для индийских языков. Языковой ландшафт Индии — один из самых разнообразных в мире: он включает сотни языков и тысячи диалектов, однако большинство существующих речевых датасетов сосредоточено на узком наборе хорошо обеспеченных ресурсами языков. VAANI был разработан, чтобы расширить доступность обучающих данных для этого недостаточно представленного языкового пространства за счёт масштабного полевого сбора данных в географически и лингвистически разнообразных регионах страны.

Данные были собраны примерно от 110 000 носителей речи из 120 округов в 22 штатах Индии, что отражает целенаправленное стремление зафиксировать подлинное региональное и диалектное разнообразие, а не полагаться на контролируемые студийные записи. Датасет охватывает 86 языков и диалектов — от крупных официально признанных языков, таких как Hindi, Tamil, Telugu, Bengali, Kannada и Malayalam, до многочисленных региональных разновидностей и языков племенных народов, включая Gondi, Santali, Kurukh, Wancho и Tenyidie, а также многие другие.

Состав датасета и ключевые особенности

VAANI включает в общей сложности около 21 500 часов аудио, что делает его одним из крупнейших многоязычных речевых корпусов, ориентированных на индийские языки. Из этого объёма 835 часов были транскрибированы, что обеспечивает наличие эталонных текстовых аннотаций для части коллекции. Датасет также включает мультимодальные элементы, что позволяет использовать его не только для традиционных речевых задач.

Ключевые характеристики датасета включают:

Охват 86 языков и диалектов, включая множество малоресурсных и племенных разновидностей
Вклад около 110 000 носителей речи из различных географических и демографических групп
21 500 часов аудио в общей сложности, из которых 835 часов составляют транскрибированную речь
Полевые записи из 120 округов в 22 штатах Индии
Публикацию по лицензии CC BY 4.0, допускающей широкое повторное использование при указании авторства
Поддержку как унимодальных, так и мультимодальных исследовательских приложений

Поддерживаемые задачи и сценарии использования

VAANI предназначен служить ресурсом для широкого спектра задач обработки речи и языка. Исследователи и разработчики могут использовать его для обучения и оценки систем автоматического распознавания речи (ASR), синтеза речи по тексту (TTS), идентификации говорящего и моделей идентификации языка. Датасет также поддерживает исследования в области улучшения качества речи и разработки мультимодальных больших языковых моделей (LLMs). Широкий языковой охват делает его особенно актуальным для бенчмаркинга систем, предназначенных для работы в условиях разнообразной языковой среды Индии.

С учётом включения множества малоресурсных языков и диалектов, для которых ранее существовало мало или вовсе не существовало речевых данных, VAANI представляет особую ценность для исследователей, занимающихся созданием инклюзивных языковых технологий. Он обеспечивает основу для разработки инструментов ASR и обработки естественного языка, которые могут быть полезны сообществам, чьи языки исторически отсутствовали в мейнстримной разработке AI.

Значение для технологий индийских языков

Масштаб и языковое разнообразие VAANI делают его заметным вкладом в область многоязычных речевых исследований, особенно в контексте языков Южной Азии. Документируя устные разновидности языков племенных, сельских и региональных сообществ наряду с более широко распространёнными языками, датасет фиксирует аспект языкового наследия Индии, который редко представлен в вычислительных ресурсах. Его открытая лицензия облегчает использование академическими учреждениями, государственными структурами и отраслевыми исследователями, работающими над созданием более инклюзивных и репрезентативных речевых технологий.

VAANI

Категории

Темы

Предпосылки и разработка

Состав датасета и ключевые особенности

Поддерживаемые задачи и сценарии использования

Значение для технологий индийских языков