Name: VAANI
Creator: Indian Institute of Science
License: https://creativecommons.org/licenses/by/4.0/

Contexto e Desenvolvemento

VAANI (que significa "voz" ou "fala" en varias linguas indias) foi creado polo Indian Institute of Science (IISc) en Bangalore como parte dun esforzo para abordar a significativa brecha nos recursos de datos de fala para linguas indias. O panorama lingüístico de India está entre os máis diversos do mundo, abarcando centos de linguas e miles de dialectos, pero a maioría dos conxuntos de datos de fala existentes céntranse nun conxunto restrinxido de linguas ben dotadas de recursos. VAANI foi desenvolvido para ampliar a dispoñibilidade de datos de adestramento para este espazo lingüístico desatendido mediante a realización de recollidas de datos de campo a gran escala en rexións xeográfica e lingüísticamente diversas do país.

Os datos foron recollidos de aproximadamente 110,000 falantes repartidos por 120 distritos en 22 estados indios, reflectindo un esforzo deliberado por capturar a verdadeira variación rexional e dialectal en vez de depender de gravacións controladas en estudio. O conxunto de datos abarca 86 linguas e dialectos, que van desde linguas programadas principais como Hindi, Tamil, Telugu, Bengali, Kannada e Malayalam ata numerosas variedades regionais e linguas tribais como Gondi, Santali, Kurukh, Wancho e Tenyidie, entre moitas outras.

Composición do Conxunto de Datos e Características Clave

VAANI comprende aproximadamente 21,500 horas de audio en total, converténdoo nun dos maiores corpora de fala multilingüe centrados nas linguas indias. Deste total, 835 horas foron transcritas, proporcionando anotacións de texto de verdade para un subconxunto da colección. O conxunto de datos tamén incorpora elementos multimodais, posicionándoo para o uso máis alá das tarefas convencionais de fala.

As características clave do conxunto de datos inclúen:

Cobertura de 86 linguas e dialectos, incluíndo moitas variedades de poucos recursos e tribais
Contribucións de aproximadamente 110,000 falantes de diversos contextos xeográficos e demográficos
21,500 horas totais de audio con 835 horas de fala transcrita
Gravacións de campo que abarcan 120 distritos en 22 estados indios
Publicada baixo unha licencia CC BY 4.0, permitindo un amplo reutilización con atribución
Soporte para aplicacións de investigación tanto unimodais como multimodais

Tarefas e Casos de Uso Soportados

VAANI está deseñado para servir como un recurso para unha ampla gama de tarefas de procesamento de fala e linguaxe. Investigadores e desenvolvedores poden usalo para adestrar e avaliar sistemas de recoñecemento automático de fala (ASR), síntese de texto a fala (TTS), identificación de falantes e modelos de identificación de linguas. O conxunto de datos tamén apoia o traballo na mellora da fala e no desenvolvemento de grandes modelos de linguaxe multimodais (LLMs). A súa amplitude de cobertura lingüística faino especialmente relevante para a avaliación de sistemas destinados a operar no diverso entorno lingüístico de India.

Dada a inclusión de moitas linguas e dialectos de poucos recursos para os que existe pouco ou ningún dato de fala previo, VAANI ten un valor particular para os investigadores centrados na creación de tecnoloxías lingüísticas inclusivas. Proporciona unha base para desenvolver ferramentas de ASR e procesamento de linguaxe natural que poderían servir a comunidades cuxas linguas históricamente estiveron ausentes do desenvolvemento da IA convencional.

Significado para a Tecnoloxía Lingüística India

A escala e a diversidade lingüística de VAANI fan del unha contribución notable ao campo da investigación de fala multilingüe, especialmente no contexto das linguas do sur de Asia. Ao documentar variedades faladas de comunidades tribais, rurais e regionais xunto a linguas máis faladas, o conxunto de datos captura unha dimensión do patrimonio lingüístico de India que raramente está representada en recursos computacionais. A súa licencia aberta facilita o uso por institucións académicas, organismos gobernamentais e investigadores da industria que traballan cara a tecnoloxías de fala máis inclusivas e representativas.

VAANI

Categorías

Temas

Contexto e Desenvolvemento

Composición do Conxunto de Datos e Características Clave

Tarefas e Casos de Uso Soportados

Significado para a Tecnoloxía Lingüística India