21 500 hours CC-BY 4.0 Training Alle språk

Temaer

voice audionlp

VAANI er et stort flerspråklig talesdatasett utviklet av Indian Institute of Science (IISc) i Bangalore, som inneholder omtrent 21 500 timer lyd innsamlet fra rundt 110 000 talere på tvers av 120 distrikter i 22 indiske delstater. Det omfatter 86 språk og dialekter som snakkes i hele India, inkludert store planlagte språk samt en rekke regionale og stammebaserte varianter, med 835 timer innspilt tale som er transkribert.

Datasettet er utviklet for å støtte et bredt spekter av tale- og språkoppgaver, inkludert automatisk talegjenkjenning, tekst-til-tale-syntese, identifisering av taler, språkidentifisering, taleenhancement og utvikling av multimodale språkmodeller. Det er utgitt under en CC BY 4.0-lisens, og er først og fremst ment for trening og benchmarking av AI-systemer, med særlig relevans for forskere og utviklere som arbeider med lavressursspråk og språk som er underrepresentert i India.

Bakgrunn og utvikling

VAANI (som betyr «stemme» eller «tale» på flere indiske språk) ble utviklet av Indian Institute of Science (IISc) i Bangalore som en del av en innsats for å tette det betydelige gapet i tale-datagrunnlag for indiske språk. Indias språklige landskap er blant de mest mangfoldige i verden, og omfatter hundrevis av språk og tusenvis av dialekter, men de fleste eksisterende talesett retter seg mot et snevert utvalg av godt ressurssterke språk. VAANI ble utviklet for å utvide tilgjengeligheten av treningsdata i dette språklige området som er underbetjent, ved å gjennomføre innsamling av feltdata i stor skala på geografisk og språklig ulike regioner i landet.

Data ble samlet inn fra omtrent 110 000 talere fordelt på 120 distrikter i 22 indiske delstater, noe som gjenspeiler en bevisst innsats for å fange reell regional og dialektal variasjon, i stedet for å basere seg på kontrollerte opptak i studio. Datasettet dekker 86 språk og dialekter, fra store planlagte språk som hindi, tamil, telugu, bengali, kannada og malayalam til en rekke regionale varianter og stammespråk, inkludert gondi, santali, kurukh, wancho og tenyidie, blant mange andre.

Datasammensetning og nøkkelfunksjoner

VAANI består av omtrent 21 500 timer lyd totalt, noe som gjør det til et av de største flerspråklige talesamlingene som er rettet mot indiske språk. Av dette er 835 timer transkribert, noe som gir tekstannotasjoner med «ground truth» for en del av samlingen. Datasettet inneholder også multimodale elementer, og er dermed lagt til rette for bruk utover konvensjonelle taleoppgaver.

Viktige egenskaper ved datasettet inkluderer:

  • Dekning av 86 språk og dialekter, inkludert mange varianter med lav ressurs og stammevarianter
  • Bidrag fra rundt 110 000 talere på tvers av ulike geografiske og demografiske bakgrunner
  • 21 500 timer lyd totalt, med 835 timer transkribert tale
  • Feltopptak som dekker 120 distrikter i 22 indiske delstater
  • Utgitt under en CC BY 4.0-lisens, som tillater bred gjenbruk med angivelse av kilde
  • Støtte for både unimodale og multimodale forskningsapplikasjoner

Støttede oppgaver og bruksområder

VAANI er utviklet for å fungere som en ressurs for et bredt spekter av oppgaver innen tale- og språkbehandling. Forskere og utviklere kan bruke det til å trene og evaluere systemer for automatisk talegjenkjenning (ASR), syntese av tale fra tekst (TTS), modeller for identifisering av taler og språkidentifisering. Datasettet støtter også arbeid med taleforbedring og utvikling av multimodale store språkmodeller (LLM-er). Bredden i språkdekningen gjør det særlig relevant for å benchmarke systemer som er ment å fungere i Indias mangfoldige språklige miljø.

Siden datasettet inkluderer mange språk og dialekter med lav ressurs, der det finnes lite eller ingen tidligere tale-data, har VAANI særlig verdi for forskere som arbeider med å bygge inkluderende språkteknologier. Det gir et grunnlag for å utvikle ASR- og verktøy for naturlig språkbehandling som kan tjene fellesskap hvis språk historisk har vært fraværende fra mainstream-utvikling av kunstig intelligens.

Betydning for indisk språkteknologi

Skalaen og det språklige mangfoldet i VAANI gjør det til et bemerkelsesverdig bidrag til feltet for flerspråklig tale-forskning, særlig i konteksten av sørasiatiske språk. Ved å dokumentere talte varianter fra stamme-, landlige og regionale fellesskap sammen med mer utbredte språk, fanger datasettet en dimensjon av Indias språklige kulturarv som sjelden er representert i beregningsressurser. Den åpne lisensen gjør det mulig for akademiske institusjoner, offentlige organer og industriforskere å bruke datasettet til å utvikle mer inkluderende og representative talesystemer.

Rapport