21 500 hours CC-BY 4.0 Training Всички езици

Теми

voice audionlp

VAANI е мащабен многоезичен набор от данни за реч, разработен от Индийския институт по наука (IISc), Бангалор, съдържащ приблизително 21,500 часа аудио, събрано от около 110,000 говорители в 120 окръга в 22 индийски щата. Той обхваща 86 езика и диалекти, говорени в Индия, включително основни планирани езици, както и множество регионални и племенни разновидности, с 835 часа транскрибирана реч.

Наборът от данни е проектиран да поддържа редица задачи свързани с речта и езика, включително автоматично разпознаване на реч, синтез на текст в реч, идентификация на говорители, идентификация на език, подобряване на речта и разработка на мултимоделни езикови модели. Освободен под лиценз CC BY 4.0, той е предназначен предимно за обучение и оценка на AI системи, с особено значение за изследователи и разработчици, работещи по езици с ниски ресурси и недостатъчно представени индийски езици.

Фон и Развитие

VAANI (което означава "глас" или "реч" на няколко индийски езика) беше създаден от Индийския институт по наука (IISc) в Бангалор като част от усилие за справяне със значителната пропаст в ресурсите за речеви данни за индийските езици. Лингвистичният ландшафт на Индия е сред най-разнообразните в света, обхващащ стотици езици и хиляди диалекти, но повечето от съществуващите речеви набори се фокусират върху тесен набор от добре ресурсирани езици. VAANI беше разработен, за да разшири наличността на обучителни данни за това недостатъчно обслужвано лингвистично пространство, като проведе мащабно събиране на полеви данни в географски и лингвистично разнообразни региони на страната.

Данните бяха събрани от приблизително 110,000 говорители, разпределени в 120 окръга в 22 индийски щата, отразявайки целенасочено усилие да се улови истинска регионална и диалектна вариация, вместо да се разчита на контролирани студийни записи. Наборът от данни обхваща 86 езика и диалекта, вариращи от основни планирани езици като Хинди, Тамил, Телугу, Бенгали, Каннада и Малаялам до многобройни регионални разновидности и племенни езици, включително Гонди, Сантали, Курук, Уаншо и Тенииди, наред с много други.

Състав на Набора от Данни и Ключови Характеристики

VAANI се състои от приблизително 21,500 часа аудио общо, което го прави един от най-големите многоезични речеви корпуси, фокусирани върху индийските езици. От тях, 835 часа са били транскрибирани, предоставяйки текстови анотации за подмножество от колекцията. Наборът от данни също така включва мултимодални елементи, което го позиционира за използване извън конвенционалните речеви задачи.

Ключови характеристики на набора от данни включват:

  • Обхват на 86 езика и диалекта, включително много с ниски ресурси и племенни разновидности
  • Приноси от около 110,000 говорители с разнообразен географски и демографски произход
  • 21,500 общо часа аудио с 835 часа транскрибирана реч
  • Полеви записи, обхващащи 120 окръга в 22 индийски щата
  • Публикуван под лиценз CC BY 4.0, позволяващ широко повторно използване с атрибуция
  • Подкрепа за както унимодални, така и мултимодални изследователски приложения

Поддържани Задачи и Приложения

VAANI е проектиран да служи като ресурс за широк спектър от задачи по обработка на реч и език. Изследователи и разработчици могат да го използват за обучение и оценка на системи за автоматично разпознаване на реч (ASR), синтез на текст в реч (TTS), идентификация на говорители и модели за идентификация на език. Наборът от данни също така подкрепя работа по подобряване на речта и разработването на мултимодални големи езикови модели (LLMs). Неговият обхват на езиково покритие го прави особено релевантен за оценка на системи, предназначени да работят в разнообразната лингвистична среда на Индия.

С оглед на включването на много езици и диалекти с ниски ресурси, за които съществуват малко или никакви предишни речеви данни, VAANI има особена стойност за изследователи, фокусирани върху изграждането на инклузивни езикови технологии. Той предоставя основа за разработване на инструменти за ASR и обработка на естествен език, които биха могли да обслужват общности, чиито езици исторически са били отсъстващи от основната разработка на ИИ.

Значение за Технологията на Индийските Езици

Мащабът и лингвистичното разнообразие на VAANI го правят забележителен принос в областта на многоезичното речево изследване, особено в контекста на южноазиатските езици. Чрез документиране на говорими разновидности от племенни, селски и регионални общности наред с по-широко говорените езици, наборът от данни улавя измерение на лингвистичното наследство на Индия, което рядко е представено в компютърни ресурси. Неговият отворен лиценз улеснява използването му от академични институции, правителствени органи и изследователи от индустрията, работещи за по-инклузивни и представителни речеви технологии.

Доклад