Catégories
Thèmes
VAANI est un vaste jeu de données vocales multilingues développé par l’Indian Institute of Science (IISc), Bangalore, contenant environ 21 500 heures d’audio collectées auprès d’environ 110 000 locuteurs dans 120 districts de 22 États indiens. Il couvre 86 langues et dialectes parlés à travers l’Inde, y compris les principales langues répertoriées ainsi que de nombreuses variétés régionales et tribales, avec 835 heures de parole transcrite.
Le jeu de données est conçu pour prendre en charge un éventail de tâches liées à la parole et au langage, notamment la reconnaissance automatique de la parole, la synthèse texte-parole, l’identification du locuteur, l’identification de la langue, l’amélioration de la parole et le développement de modèles de langage multimodaux. Publié sous licence CC BY 4.0, il est destiné principalement à l’entraînement et à l’évaluation comparative de systèmes d’IA, avec une pertinence particulière pour les chercheurs et développeurs travaillant sur des langues indiennes peu dotées et sous-représentées.
Contexte et développement
VAANI (qui signifie « voix » ou « parole » dans plusieurs langues indiennes) a été créé par l'Indian Institute of Science (IISc) à Bangalore dans le cadre d'une démarche visant à combler l'importante lacune en ressources de données de parole pour les langues indiennes. Le paysage linguistique de l'Inde figure parmi les plus divers au monde : il englobe des centaines de langues et des milliers de dialectes, mais la majorité des jeux de données de parole existants se concentre sur un ensemble restreint de langues bien dotées en ressources. VAANI a été développé pour élargir la disponibilité des données d'entraînement dans cet espace linguistique insuffisamment servi, en menant une collecte de données de terrain à grande échelle dans des régions du pays à la fois géographiquement et linguistiquement variées.
Les données ont été recueillies auprès d'environ 110 000 locuteurs répartis dans 120 districts de 22 États indiens, traduisant une volonté délibérée de capturer de véritables variations régionales et dialectales plutôt que de s'appuyer sur des enregistrements contrôlés en studio. L'ensemble de données couvre 86 langues et dialectes, allant des grandes langues planifiées telles que l'hindi, le tamoul, le télougou, le bengali, le kannada et le malayalam, jusqu'à de nombreuses variétés régionales et langues tribales, notamment le gondi, le santali, le kurukh, le wancho et le tenyidie, entre autres.
Composition du jeu de données et caractéristiques clés
VAANI comprend environ 21 500 heures d'audio au total, ce qui en fait l'un des plus grands corpus multilingues de parole axés sur les langues indiennes. Parmi celles-ci, 835 heures ont été transcrites, fournissant des annotations textuelles de référence pour une partie de la collection. Le jeu de données intègre également des éléments multimodaux, ce qui le rend utilisable au-delà des tâches de parole conventionnelles.
Les caractéristiques clés du jeu de données incluent :
- Couverture de 86 langues et dialectes, incluant de nombreuses variétés à faibles ressources et tribales
- Contributions d'environ 110 000 locuteurs issus d'horizons géographiques et démographiques divers
- 21 500 heures d'audio au total, dont 835 heures de parole transcrite
- Enregistrements de terrain couvrant 120 districts dans 22 États indiens
- Publié sous une licence CC BY 4.0, permettant une réutilisation étendue avec attribution
- Prise en charge des recherches unimodales et multimodales
Tâches prises en charge et cas d'utilisation
VAANI est conçu comme une ressource pour un large éventail de tâches de traitement de la parole et du langage. Les chercheurs et les développeurs peuvent l'utiliser pour entraîner et évaluer des systèmes de reconnaissance automatique de la parole (ASR), des modèles de synthèse parole-texte (TTS), d'identification du locuteur et d'identification de la langue. Le jeu de données prend également en charge les travaux sur l'amélioration de la parole et le développement de modèles de grands langages multimodaux (LLM). Sa large couverture linguistique le rend particulièrement pertinent pour l'évaluation de systèmes destinés à fonctionner dans l'environnement linguistique diversifié de l'Inde.
Compte tenu de l'inclusion de nombreuses langues et de nombreux dialectes à faibles ressources pour lesquels il existe peu ou pas de données de parole préexistantes, VAANI présente une valeur particulière pour les chercheurs qui souhaitent construire des technologies linguistiques inclusives. Il fournit une base pour développer des outils d'ASR et de traitement du langage naturel susceptibles de servir des communautés dont les langues ont historiquement été absentes du développement grand public de l'IA.
Importance pour la technologie des langues indiennes
L'ampleur et la diversité linguistique de VAANI en font une contribution notable au domaine de la recherche multilingue sur la parole, en particulier dans le contexte des langues d'Asie du Sud. En documentant des variétés parlées issues de communautés tribales, rurales et régionales, aux côtés de langues plus largement diffusées, le jeu de données saisit une dimension du patrimoine linguistique de l'Inde rarement représentée dans les ressources informatiques. Sa licence ouverte facilite l'utilisation par des institutions universitaires, des organismes gouvernementaux et des chercheurs de l'industrie qui œuvrent à des technologies de la parole plus inclusives et représentatives.