Name: VAANI
Creator: Indian Institute of Science
License: https://creativecommons.org/licenses/by/4.0/

Contexte et développement

VAANI (qui signifie « voix » ou « parole » dans plusieurs langues indiennes) a été créé par l'Indian Institute of Science (IISc) à Bangalore dans le cadre d'une démarche visant à combler l'importante lacune en ressources de données de parole pour les langues indiennes. Le paysage linguistique de l'Inde figure parmi les plus divers au monde : il englobe des centaines de langues et des milliers de dialectes, mais la majorité des jeux de données de parole existants se concentre sur un ensemble restreint de langues bien dotées en ressources. VAANI a été développé pour élargir la disponibilité des données d'entraînement dans cet espace linguistique insuffisamment servi, en menant une collecte de données de terrain à grande échelle dans des régions du pays à la fois géographiquement et linguistiquement variées.

Les données ont été recueillies auprès d'environ 110 000 locuteurs répartis dans 120 districts de 22 États indiens, traduisant une volonté délibérée de capturer de véritables variations régionales et dialectales plutôt que de s'appuyer sur des enregistrements contrôlés en studio. L'ensemble de données couvre 86 langues et dialectes, allant des grandes langues planifiées telles que l'hindi, le tamoul, le télougou, le bengali, le kannada et le malayalam, jusqu'à de nombreuses variétés régionales et langues tribales, notamment le gondi, le santali, le kurukh, le wancho et le tenyidie, entre autres.

Composition du jeu de données et caractéristiques clés

VAANI comprend environ 21 500 heures d'audio au total, ce qui en fait l'un des plus grands corpus multilingues de parole axés sur les langues indiennes. Parmi celles-ci, 835 heures ont été transcrites, fournissant des annotations textuelles de référence pour une partie de la collection. Le jeu de données intègre également des éléments multimodaux, ce qui le rend utilisable au-delà des tâches de parole conventionnelles.

Les caractéristiques clés du jeu de données incluent :

Couverture de 86 langues et dialectes, incluant de nombreuses variétés à faibles ressources et tribales
Contributions d'environ 110 000 locuteurs issus d'horizons géographiques et démographiques divers
21 500 heures d'audio au total, dont 835 heures de parole transcrite
Enregistrements de terrain couvrant 120 districts dans 22 États indiens
Publié sous une licence CC BY 4.0, permettant une réutilisation étendue avec attribution
Prise en charge des recherches unimodales et multimodales

Tâches prises en charge et cas d'utilisation

VAANI est conçu comme une ressource pour un large éventail de tâches de traitement de la parole et du langage. Les chercheurs et les développeurs peuvent l'utiliser pour entraîner et évaluer des systèmes de reconnaissance automatique de la parole (ASR), des modèles de synthèse parole-texte (TTS), d'identification du locuteur et d'identification de la langue. Le jeu de données prend également en charge les travaux sur l'amélioration de la parole et le développement de modèles de grands langages multimodaux (LLM). Sa large couverture linguistique le rend particulièrement pertinent pour l'évaluation de systèmes destinés à fonctionner dans l'environnement linguistique diversifié de l'Inde.

Compte tenu de l'inclusion de nombreuses langues et de nombreux dialectes à faibles ressources pour lesquels il existe peu ou pas de données de parole préexistantes, VAANI présente une valeur particulière pour les chercheurs qui souhaitent construire des technologies linguistiques inclusives. Il fournit une base pour développer des outils d'ASR et de traitement du langage naturel susceptibles de servir des communautés dont les langues ont historiquement été absentes du développement grand public de l'IA.

Importance pour la technologie des langues indiennes

L'ampleur et la diversité linguistique de VAANI en font une contribution notable au domaine de la recherche multilingue sur la parole, en particulier dans le contexte des langues d'Asie du Sud. En documentant des variétés parlées issues de communautés tribales, rurales et régionales, aux côtés de langues plus largement diffusées, le jeu de données saisit une dimension du patrimoine linguistique de l'Inde rarement représentée dans les ressources informatiques. Sa licence ouverte facilite l'utilisation par des institutions universitaires, des organismes gouvernementaux et des chercheurs de l'industrie qui œuvrent à des technologies de la parole plus inclusives et représentatives.

VAANI

Catégories

Thèmes

Contexte et développement

Composition du jeu de données et caractéristiques clés

Tâches prises en charge et cas d'utilisation

Importance pour la technologie des langues indiennes