21 500 hours CC-BY 4.0 Training Всі мови

Теми

voice audionlp

VAANI — це багатомовний аудіодатасет великого масштабу для мовлення, розроблений Індійським інститутом науки (IISc) у Бангалорі. Він містить приблизно 21 500 годин аудіозаписів, зібраних від близько 110 000 мовців у 120 округах 22 індійських штатів. Датасет охоплює 86 мов і діалектів, поширених по всій Індії, зокрема основні мови, передбачені розкладом, а також численні регіональні та племінні різновиди, і включає 835 годин транскрибованого мовлення.

Датасет призначено для підтримки різноманітних завдань зі сфери мовлення та мови, зокрема автоматичного розпізнавання мовлення, синтезу мовлення з тексту, ідентифікації мовця, ідентифікації мови, покращення якості мовлення та розроблення мультимодальних мовних моделей. Опублікований під ліцензією CC BY 4.0, він насамперед орієнтований на навчання та бенчмаркінг систем штучного інтелекту, з особливою актуальністю для дослідників і розробників, які працюють із малоресурсними та недостатньо представленими індійськими мовами.

Передумови та розробка

VAANI (що означає «голос» або «мовлення» в кількох індійських мовах) було створено Індійським інститутом науки (IISc) у Бангалорі в межах ініціативи, спрямованої на подолання суттєвої прогалини в ресурсах мовленнєвих даних для індійських мов. Мовний ландшафт Індії є одним із найрізноманітніших у світі: він охоплює сотні мов і тисячі діалектів, однак більшість наявних наборів даних для мовлення зосереджено на обмеженій кількості добре забезпечених ресурсами мов. VAANI було розроблено, щоб розширити доступність навчальних даних для цієї недостатньо охопленої мовної сфери шляхом проведення масштабного польового збирання даних у географічно та лінгвістично різноманітних регіонах країни.

Дані було зібрано приблизно від 110 000 мовців, розподілених між 120 округами в 22 індійських штатах, що відображає цілеспрямовані зусилля зафіксувати реальні регіональні та діалектні відмінності, а не покладатися на контрольовані студійні записи. Набір даних охоплює 86 мов і діалектів — від основних мов, внесених до переліку за розкладом, як-от гінді, тамільська, телугу, бенгальська, каннада та малаялам, до численних регіональних різновидів і племінних мов, зокрема гондi, санталі, курух, ванчо та тенйідi, серед багатьох інших.

Склад набору даних і ключові особливості

VAANI загалом містить приблизно 21 500 годин аудіо, що робить його одним із найбільших багатомовних корпусів мовлення, орієнтованих на індійські мови. З цього обсягу 835 годин було розшифровано, надаючи текстові анотації «істинного» значення для підмножини колекції. Набір даних також включає мультимодальні елементи, що позиціонує його для використання поза межами традиційних задач із мовлення.

Ключові характеристики набору даних включають:

  • Охоплення 86 мов і діалектів, зокрема багатьох малоресурсних і племінних різновидів
  • Внесок приблизно 110 000 мовців із різноманітних географічних і демографічних середовищ
  • 21 500 годин аудіо загалом із 835 годинами розшифрованого мовлення
  • Польові записи, що охоплюють 120 округів у 22 індійських штатах
  • Опубліковано під ліцензією CC BY 4.0, що дозволяє широке повторне використання з посиланням
  • Підтримка як унімодальних, так і мультимодальних дослідницьких застосунків

Підтримувані задачі та сценарії використання

VAANI створено як ресурс для широкого спектра задач із мовлення та обробки мови. Дослідники й розробники можуть використовувати його для навчання та оцінювання систем автоматичного розпізнавання мовлення (ASR), синтезу мовлення з тексту (TTS), моделей ідентифікації мовця та ідентифікації мови. Набір даних також підтримує роботи з покращення якості мовлення та розробку мультимодальних великих мовних моделей (LLM). Завдяки широті мовного охоплення він є особливо релевантним для бенчмаркінгу систем, призначених для роботи в різноманітному мовному середовищі Індії.

Оскільки до складу включено багато малоресурсних мов і діалектів, для яких існує мало або взагалі немає попередніх мовленнєвих даних, VAANI має особливу цінність для дослідників, зосереджених на побудові інклюзивних мовних технологій. Він закладає основу для розробки інструментів ASR і обробки природної мови, які можуть слугувати спільнотам, чиї мови історично були відсутні в основному розвитку ШІ.

Значення для технологій індійських мов

Масштаб і лінгвістичне різноманіття VAANI роблять його помітним внеском у сферу багатомовних досліджень мовлення, зокрема в контексті південноазійських мов. Документуючи різновиди усного мовлення з племінних, сільських і регіональних спільнот поряд із більш широко вживаними мовами, набір даних фіксує вимір мовної спадщини Індії, який рідко відображають у обчислювальних ресурсах. Його відкрита ліцензія полегшує використання академічними установами, державними органами та дослідниками з індустрії, які працюють над більш інклюзивними й репрезентативними технологіями мовлення.

Звіт