21.500 hours CC-BY 4.0 Training Alle Sprachen

Themen

voice audionlp

VAANI ist ein großangelegter mehrsprachiger Sprachdatensatz, der vom Indian Institute of Science (IISc) in Bangalore entwickelt wurde und etwa 21.500 Stunden Audio enthält, das von rund 110.000 Sprechern aus 120 Distrikten in 22 indischen Bundesstaaten gesammelt wurde. Er umfasst 86 Sprachen und Dialekte, die in Indien gesprochen werden, einschließlich wichtiger geplanter Sprachen sowie zahlreicher regionaler und tribal Varianten, mit 835 Stunden transkribierter Sprache.

Der Datensatz ist darauf ausgelegt, eine Reihe von Sprach- und Sprachverarbeitungsaufgaben zu unterstützen, darunter automatische Spracherkennung, Text-to-Speech-Synthese, Sprecheridentifikation, Spracherkennung, Sprachverbesserung und Entwicklung multimodaler Sprachmodelle. Er wurde unter einer CC BY 4.0 Lizenz veröffentlicht und ist in erster Linie für das Training und Benchmarking von KI-Systemen gedacht, mit besonderer Relevanz für Forscher und Entwickler, die an ressourcenarmen und unterrepräsentierten indischen Sprachen arbeiten.

Hintergrund und Entwicklung

VAANI (was in mehreren indischen Sprachen "Stimme" oder "Sprache" bedeutet) wurde vom Indian Institute of Science (IISc) in Bangalore im Rahmen eines Projekts zur Schließung der erheblichen Lücke in den Sprachdatenressourcen für indische Sprachen geschaffen. Die sprachliche Landschaft Indiens gehört zu den vielfältigsten der Welt und umfasst Hunderte von Sprachen und Tausende von Dialekten, doch die Mehrheit der bestehenden Sprachdatensätze konzentriert sich auf eine enge Auswahl gut ausgestatteter Sprachen. VAANI wurde entwickelt, um die Verfügbarkeit von Trainingsdaten für diesen unterversorgten sprachlichen Bereich zu erweitern, indem eine großangelegte Datensammlung in geografisch und linguistisch vielfältigen Regionen des Landes durchgeführt wurde.

Die Daten wurden von etwa 110.000 Sprechern aus 120 Distrikten in 22 indischen Bundesstaaten gesammelt, was einen bewussten Versuch darstellt, echte regionale und dialektale Variationen zu erfassen, anstatt sich auf kontrollierte Studioaufnahmen zu verlassen. Der Datensatz umfasst 86 Sprachen und Dialekte, die von wichtigen geplanten Sprachen wie Hindi, Tamil, Telugu, Bengali, Kannada und Malayalam bis hin zu zahlreichen regionalen Varietäten und Stammes-sprachen wie Gondi, Santali, Kurukh, Wancho und Tenyidie reichen, unter vielen anderen.

Zusammensetzung des Datensatzes und wichtige Merkmale

VAANI umfasst insgesamt etwa 21.500 Stunden Audio und gehört damit zu den größten mehrsprachigen Sprachkorpora, die sich auf indische Sprachen konzentrieren. Davon wurden 835 Stunden transkribiert, was echte Textannotationen für einen Teil der Sammlung bereitstellt. Der Datensatz enthält auch multimodale Elemente, die ihn für Anwendungen über konventionelle Sprachaufgaben hinaus positionieren.

Zu den wichtigsten Merkmalen des Datensatzes gehören:

  • Abdeckung von 86 Sprachen und Dialekten, einschließlich vieler ressourcenarmer und stammessprachlicher Varietäten
  • Beiträge von rund 110.000 Sprechern aus unterschiedlichen geografischen und demografischen Hintergründen
  • 21.500 Stunden Gesamt-Audio mit 835 Stunden transkribierter Sprache
  • Feldaufnahmen aus 120 Distrikten in 22 indischen Bundesstaaten
  • Veröffentlicht unter einer CC BY 4.0 Lizenz, die eine breite Wiederverwendung mit Namensnennung erlaubt
  • Unterstützung sowohl für unimodale als auch multimodale Forschungsanwendungen

Unterstützte Aufgaben und Anwendungsfälle

VAANI wurde entwickelt, um als Ressource für eine Vielzahl von Sprach- und Sprachverarbeitungsaufgaben zu dienen. Forscher und Entwickler können es zur Schulung und Bewertung automatischer Spracherkennungssysteme (ASR), Text-to-Speech (TTS) Synthese, Sprecheridentifikation und Sprachidentifikationsmodelle verwenden. Der Datensatz unterstützt auch Arbeiten zur Sprachverbesserung und die Entwicklung multimodaler großer Sprachmodelle (LLMs). Die Breite der Sprachabdeckung macht ihn besonders relevant für Benchmarking-Systeme, die in Indiens vielfältigem sprachlichen Umfeld operieren sollen.

Angesichts der Einbeziehung vieler ressourcenarmer Sprachen und Dialekte, für die wenig oder gar keine vorherigen Sprachdaten existieren, hat VAANI einen besonderen Wert für Forscher, die sich auf den Aufbau inklusiver Sprachtechnologien konzentrieren. Es bietet eine Grundlage für die Entwicklung von ASR- und natürlichen Sprachverarbeitungstools, die Gemeinschaften dienen könnten, deren Sprachen historisch in der Mainstream-AI-Entwicklung abwesend waren.

Bedeutung für die indische Sprachtechnologie

Der Umfang und die sprachliche Vielfalt von VAANI machen es zu einem bemerkenswerten Beitrag im Bereich der mehrsprachigen Sprachforschung, insbesondere im Kontext südasiatischer Sprachen. Durch die Dokumentation gesprochener Varietäten aus Stammes-, ländlichen und regionalen Gemeinschaften neben weit verbreiteten Sprachen erfasst der Datensatz eine Dimension des sprachlichen Erbes Indiens, die in rechnergestützten Ressourcen selten vertreten ist. Seine offene Lizenz erleichtert die Nutzung durch akademische Institutionen, Regierungsstellen und Industrie-Forscher, die auf inklusivere und repräsentativere Sprachtechnologien hinarbeiten.

Bericht