21 500 hours CC-BY 4.0 Training Alla språk

Teman

voice audionlp

VAANI är en storskalig flerspråkig taldatauppsättning som utvecklats av Indian Institute of Science (IISc), Bangalore, och innehåller cirka 21 500 timmar ljud inspelat från omkring 110 000 talare i 120 distrikt i 22 indiska delstater. Den täcker 86 språk och dialekter som talas i Indien, inklusive stora schemalagda språk samt många regionala och stamvarianter, med 835 timmar transkriberat tal.

Datasatsen är utformad för att stödja en rad tal- och språkrelaterade uppgifter, inklusive automatisk taligenkänning, text-till-tal-syntes, talaridentifiering, språkidentifiering, talförbättring och utveckling av multimodala språkmodeller. Den släpptes under en CC BY 4.0-licens och är främst avsedd för träning och benchmarkning av AI-system, med särskild relevans för forskare och utvecklare som arbetar med lågresurs- och underrepresenterade indiska språk.

Bakgrund och Utveckling

VAANI (som betyder "röst" eller "tala" på flera indiska språk) skapades av Indian Institute of Science (IISc) i Bangalore som en del av en insats för att åtgärda det betydande gapet i taldataresurser för indiska språk. Indiens språkliga landskap är bland de mest mångfaldiga i världen, som omfattar hundratals språk och tusentals dialekter, men majoriteten av de befintliga taldataset fokuserar på en smal uppsättning välresursade språk. VAANI utvecklades för att öka tillgången på träningsdata för detta underrepresenterade språkområde genom att genomföra storskalig fältdata-insamling över geografiskt och språkligt olika regioner i landet.

Data samlades in från cirka 110 000 talare spridda över 120 distrikt i 22 indiska delstater, vilket återspeglar en medveten insats för att fånga genuin regional och dialektal variation istället för att förlita sig på kontrollerade studioinspelningar. Datasetet omfattar 86 språk och dialekter, som sträcker sig från stora schemalagda språk som hindi, tamil, telugu, bengali, kannada och malayalam till många regionala varianter och stam språk inklusive Gondi, Santali, Kurukh, Wancho och Tenyidie, bland många andra.

Datasetets Sammanställning och Nyckelfunktioner

VAANI omfattar cirka 21 500 timmar av ljud totalt, vilket gör det till en av de största flerspråkiga talcorpora som fokuserar på indiska språk. Av detta har 835 timmar transkriberats, vilket ger grundläggande textannoteringar för en delmängd av samlingen. Datasetet inkluderar också multimodala element, vilket gör det användbart utöver konventionella taluppgifter.

Nyckelfunktioner i datasetet inkluderar:

  • Täckning av 86 språk och dialekter, inklusive många lågresursade och stamvarianter
  • Bidrag från cirka 110 000 talare från olika geografiska och demografiska bakgrunder
  • 21 500 totalt timmar av ljud med 835 timmar av transkriberad tal
  • Fältinspelningar som sträcker sig över 120 distrikt i 22 indiska delstater
  • Utgiven under en CC BY 4.0-licens, som tillåter bred återanvändning med erkännande
  • Stöd för både unimodala och multimodala forskningsapplikationer

Stödda Uppgifter och Användningsområden

VAANI är utformat för att fungera som en resurs för en mängd olika tal- och språkbehandlingsuppgifter. Forskare och utvecklare kan använda det för att träna och utvärdera automatiska taligenkänningssystem (ASR), text-till-tal (TTS) syntes, talaridentifiering och språkidentifieringsmodeller. Datasetet stöder också arbete med talförbättring och utveckling av multimodala stora språkmodeller (LLMs). Dess bredd av språktäckning gör det särskilt relevant för att benchmarka system avsedda att fungera i Indiens mångfaldiga språkmiljö.

Med tanke på inkluderingen av många lågresursade språk och dialekter för vilka lite eller ingen tidigare taldata finns, har VAANI särskilt värde för forskare som fokuserar på att bygga inkluderande språkteknologier. Det ger en grund för att utveckla ASR och verktyg för naturlig språkbehandling som kan tjäna samhällen vars språk historiskt har varit frånvarande från mainstream AI-utveckling.

Betydelse för Indisk Språkteknologi

Skalan och den språkliga mångfalden hos VAANI gör det till ett anmärkningsvärt bidrag till området för flerspråkig talforskning, särskilt inom ramen för sydasiatiska språk. Genom att dokumentera talade varianter från stam-, landsbygds- och regionala samhällen tillsammans med mer allmänt talade språk fångar datasetet en dimension av Indiens språkliga arv som sällan representeras i beräkningsresurser. Dess öppna licens underlättar användning av akademiska institutioner, statliga organ och branschforskare som arbetar mot mer inkluderande och representativa talteknologier.

Rapport