Categorías
Temas
VAANI é un conxunto de datos de voz multilingüe a gran escala desenvolvido polo Indian Institute of Science (IISc), Bangalore, que contén aproximadamente 21,500 horas de audio recollidas de aproximadamente 110,000 falantes en 120 distritos de 22 estados indios. Cobre 86 idiomas e dialectos falados en toda India, incluíndo os principais idiomas programados así como numerosas variedades regionais e tribais, con 835 horas de fala transcrita.
O conxunto de datos está deseñado para apoiar unha variedade de tarefas de fala e linguaxe, incluíndo o recoñecemento automático de voz, a síntese de texto a voz, a identificación de falantes, a identificación de idiomas, a mellora da fala e o desenvolvemento de modelos de linguaxe multimodal. Publicado baixo unha licencia CC BY 4.0, está destinado principalmente á formación e avaliación de sistemas de IA, cunha relevancia particular para investigadores e desenvolvedores que traballan en idiomas indios de baixos recursos e subrepresentados.
Contexto e Desenvolvemento
VAANI (que significa "voz" ou "fala" en varias linguas indias) foi creado polo Indian Institute of Science (IISc) en Bangalore como parte dun esforzo para abordar a significativa brecha nos recursos de datos de fala para linguas indias. O panorama lingüístico de India está entre os máis diversos do mundo, abarcando centos de linguas e miles de dialectos, pero a maioría dos conxuntos de datos de fala existentes céntranse nun conxunto restrinxido de linguas ben dotadas de recursos. VAANI foi desenvolvido para ampliar a dispoñibilidade de datos de adestramento para este espazo lingüístico desatendido mediante a realización de recollidas de datos de campo a gran escala en rexións xeográfica e lingüísticamente diversas do país.
Os datos foron recollidos de aproximadamente 110,000 falantes repartidos por 120 distritos en 22 estados indios, reflectindo un esforzo deliberado por capturar a verdadeira variación rexional e dialectal en vez de depender de gravacións controladas en estudio. O conxunto de datos abarca 86 linguas e dialectos, que van desde linguas programadas principais como Hindi, Tamil, Telugu, Bengali, Kannada e Malayalam ata numerosas variedades regionais e linguas tribais como Gondi, Santali, Kurukh, Wancho e Tenyidie, entre moitas outras.
Composición do Conxunto de Datos e Características Clave
VAANI comprende aproximadamente 21,500 horas de audio en total, converténdoo nun dos maiores corpora de fala multilingüe centrados nas linguas indias. Deste total, 835 horas foron transcritas, proporcionando anotacións de texto de verdade para un subconxunto da colección. O conxunto de datos tamén incorpora elementos multimodais, posicionándoo para o uso máis alá das tarefas convencionais de fala.
As características clave do conxunto de datos inclúen:
- Cobertura de 86 linguas e dialectos, incluíndo moitas variedades de poucos recursos e tribais
- Contribucións de aproximadamente 110,000 falantes de diversos contextos xeográficos e demográficos
- 21,500 horas totais de audio con 835 horas de fala transcrita
- Gravacións de campo que abarcan 120 distritos en 22 estados indios
- Publicada baixo unha licencia CC BY 4.0, permitindo un amplo reutilización con atribución
- Soporte para aplicacións de investigación tanto unimodais como multimodais
Tarefas e Casos de Uso Soportados
VAANI está deseñado para servir como un recurso para unha ampla gama de tarefas de procesamento de fala e linguaxe. Investigadores e desenvolvedores poden usalo para adestrar e avaliar sistemas de recoñecemento automático de fala (ASR), síntese de texto a fala (TTS), identificación de falantes e modelos de identificación de linguas. O conxunto de datos tamén apoia o traballo na mellora da fala e no desenvolvemento de grandes modelos de linguaxe multimodais (LLMs). A súa amplitude de cobertura lingüística faino especialmente relevante para a avaliación de sistemas destinados a operar no diverso entorno lingüístico de India.
Dada a inclusión de moitas linguas e dialectos de poucos recursos para os que existe pouco ou ningún dato de fala previo, VAANI ten un valor particular para os investigadores centrados na creación de tecnoloxías lingüísticas inclusivas. Proporciona unha base para desenvolver ferramentas de ASR e procesamento de linguaxe natural que poderían servir a comunidades cuxas linguas históricamente estiveron ausentes do desenvolvemento da IA convencional.
Significado para a Tecnoloxía Lingüística India
A escala e a diversidade lingüística de VAANI fan del unha contribución notable ao campo da investigación de fala multilingüe, especialmente no contexto das linguas do sur de Asia. Ao documentar variedades faladas de comunidades tribais, rurais e regionais xunto a linguas máis faladas, o conxunto de datos captura unha dimensión do patrimonio lingüístico de India que raramente está representada en recursos computacionais. A súa licencia aberta facilita o uso por institucións académicas, organismos gobernamentais e investigadores da industria que traballan cara a tecnoloxías de fala máis inclusivas e representativas.