Name: VAANI
Creator: Indian Institute of Science
License: https://creativecommons.org/licenses/by/4.0/

Bakgrunn og utvikling

VAANI (som betyr «stemme» eller «tale» på flere indiske språk) ble utviklet av Indian Institute of Science (IISc) i Bangalore som en del av en innsats for å tette det betydelige gapet i tale-datagrunnlag for indiske språk. Indias språklige landskap er blant de mest mangfoldige i verden, og omfatter hundrevis av språk og tusenvis av dialekter, men de fleste eksisterende talesett retter seg mot et snevert utvalg av godt ressurssterke språk. VAANI ble utviklet for å utvide tilgjengeligheten av treningsdata i dette språklige området som er underbetjent, ved å gjennomføre innsamling av feltdata i stor skala på geografisk og språklig ulike regioner i landet.

Data ble samlet inn fra omtrent 110 000 talere fordelt på 120 distrikter i 22 indiske delstater, noe som gjenspeiler en bevisst innsats for å fange reell regional og dialektal variasjon, i stedet for å basere seg på kontrollerte opptak i studio. Datasettet dekker 86 språk og dialekter, fra store planlagte språk som hindi, tamil, telugu, bengali, kannada og malayalam til en rekke regionale varianter og stammespråk, inkludert gondi, santali, kurukh, wancho og tenyidie, blant mange andre.

Datasammensetning og nøkkelfunksjoner

VAANI består av omtrent 21 500 timer lyd totalt, noe som gjør det til et av de største flerspråklige talesamlingene som er rettet mot indiske språk. Av dette er 835 timer transkribert, noe som gir tekstannotasjoner med «ground truth» for en del av samlingen. Datasettet inneholder også multimodale elementer, og er dermed lagt til rette for bruk utover konvensjonelle taleoppgaver.

Viktige egenskaper ved datasettet inkluderer:

Dekning av 86 språk og dialekter, inkludert mange varianter med lav ressurs og stammevarianter
Bidrag fra rundt 110 000 talere på tvers av ulike geografiske og demografiske bakgrunner
21 500 timer lyd totalt, med 835 timer transkribert tale
Feltopptak som dekker 120 distrikter i 22 indiske delstater
Utgitt under en CC BY 4.0-lisens, som tillater bred gjenbruk med angivelse av kilde
Støtte for både unimodale og multimodale forskningsapplikasjoner

Støttede oppgaver og bruksområder

VAANI er utviklet for å fungere som en ressurs for et bredt spekter av oppgaver innen tale- og språkbehandling. Forskere og utviklere kan bruke det til å trene og evaluere systemer for automatisk talegjenkjenning (ASR), syntese av tale fra tekst (TTS), modeller for identifisering av taler og språkidentifisering. Datasettet støtter også arbeid med taleforbedring og utvikling av multimodale store språkmodeller (LLM-er). Bredden i språkdekningen gjør det særlig relevant for å benchmarke systemer som er ment å fungere i Indias mangfoldige språklige miljø.

Siden datasettet inkluderer mange språk og dialekter med lav ressurs, der det finnes lite eller ingen tidligere tale-data, har VAANI særlig verdi for forskere som arbeider med å bygge inkluderende språkteknologier. Det gir et grunnlag for å utvikle ASR- og verktøy for naturlig språkbehandling som kan tjene fellesskap hvis språk historisk har vært fraværende fra mainstream-utvikling av kunstig intelligens.

Betydning for indisk språkteknologi

Skalaen og det språklige mangfoldet i VAANI gjør det til et bemerkelsesverdig bidrag til feltet for flerspråklig tale-forskning, særlig i konteksten av sørasiatiske språk. Ved å dokumentere talte varianter fra stamme-, landlige og regionale fellesskap sammen med mer utbredte språk, fanger datasettet en dimensjon av Indias språklige kulturarv som sjelden er representert i beregningsressurser. Den åpne lisensen gjør det mulig for akademiske institusjoner, offentlige organer og industriforskere å bruke datasettet til å utvikle mer inkluderende og representative talesystemer.

VAANI

Kategorier

Temaer

Bakgrunn og utvikling

Datasammensetning og nøkkelfunksjoner

Støttede oppgaver og bruksområder

Betydning for indisk språkteknologi