21 500 hours CC-BY 4.0 Training Все языки

Темы

voice audionlp

VAANI — это крупномасштабный многоязычный речевой датасет, разработанный Indian Institute of Science (IISc), Bangalore, содержащий примерно 21 500 часов аудио, собранных от около 110 000 носителей речи в 120 округах 22 индийских штатов. Он охватывает 86 языков и диалектов, на которых говорят по всей Индии, включая основные языки, входящие в официальный перечень, а также многочисленные региональные и племенные разновидности; при этом 835 часов речи снабжены транскрипциями.

Датасет предназначен для поддержки широкого спектра речевых и языковых задач, включая автоматическое распознавание речи, синтез речи по тексту, идентификацию диктора, идентификацию языка, улучшение качества речи и разработку мультимодальных языковых моделей. Выпущенный по лицензии CC BY 4.0, он предназначен прежде всего для обучения и бенчмаркинга AI-систем и особенно актуален для исследователей и разработчиков, работающих с малоресурсными и недостаточно представленными индийскими языками.

Предпосылки и разработка

VAANI (что означает «голос» или «речь» на нескольких индийских языках) был создан Indian Institute of Science (IISc) в Bangalore в рамках усилий по устранению значительного дефицита речевых данных для индийских языков. Языковой ландшафт Индии — один из самых разнообразных в мире: он включает сотни языков и тысячи диалектов, однако большинство существующих речевых датасетов сосредоточено на узком наборе хорошо обеспеченных ресурсами языков. VAANI был разработан, чтобы расширить доступность обучающих данных для этого недостаточно представленного языкового пространства за счёт масштабного полевого сбора данных в географически и лингвистически разнообразных регионах страны.

Данные были собраны примерно от 110 000 носителей речи из 120 округов в 22 штатах Индии, что отражает целенаправленное стремление зафиксировать подлинное региональное и диалектное разнообразие, а не полагаться на контролируемые студийные записи. Датасет охватывает 86 языков и диалектов — от крупных официально признанных языков, таких как Hindi, Tamil, Telugu, Bengali, Kannada и Malayalam, до многочисленных региональных разновидностей и языков племенных народов, включая Gondi, Santali, Kurukh, Wancho и Tenyidie, а также многие другие.

Состав датасета и ключевые особенности

VAANI включает в общей сложности около 21 500 часов аудио, что делает его одним из крупнейших многоязычных речевых корпусов, ориентированных на индийские языки. Из этого объёма 835 часов были транскрибированы, что обеспечивает наличие эталонных текстовых аннотаций для части коллекции. Датасет также включает мультимодальные элементы, что позволяет использовать его не только для традиционных речевых задач.

Ключевые характеристики датасета включают:

  • Охват 86 языков и диалектов, включая множество малоресурсных и племенных разновидностей
  • Вклад около 110 000 носителей речи из различных географических и демографических групп
  • 21 500 часов аудио в общей сложности, из которых 835 часов составляют транскрибированную речь
  • Полевые записи из 120 округов в 22 штатах Индии
  • Публикацию по лицензии CC BY 4.0, допускающей широкое повторное использование при указании авторства
  • Поддержку как унимодальных, так и мультимодальных исследовательских приложений

Поддерживаемые задачи и сценарии использования

VAANI предназначен служить ресурсом для широкого спектра задач обработки речи и языка. Исследователи и разработчики могут использовать его для обучения и оценки систем автоматического распознавания речи (ASR), синтеза речи по тексту (TTS), идентификации говорящего и моделей идентификации языка. Датасет также поддерживает исследования в области улучшения качества речи и разработки мультимодальных больших языковых моделей (LLMs). Широкий языковой охват делает его особенно актуальным для бенчмаркинга систем, предназначенных для работы в условиях разнообразной языковой среды Индии.

С учётом включения множества малоресурсных языков и диалектов, для которых ранее существовало мало или вовсе не существовало речевых данных, VAANI представляет особую ценность для исследователей, занимающихся созданием инклюзивных языковых технологий. Он обеспечивает основу для разработки инструментов ASR и обработки естественного языка, которые могут быть полезны сообществам, чьи языки исторически отсутствовали в мейнстримной разработке AI.

Значение для технологий индийских языков

Масштаб и языковое разнообразие VAANI делают его заметным вкладом в область многоязычных речевых исследований, особенно в контексте языков Южной Азии. Документируя устные разновидности языков племенных, сельских и региональных сообществ наряду с более широко распространёнными языками, датасет фиксирует аспект языкового наследия Индии, который редко представлен в вычислительных ресурсах. Его открытая лицензия облегчает использование академическими учреждениями, государственными структурами и отраслевыми исследователями, работающими над созданием более инклюзивных и репрезентативных речевых технологий.

Отчет