Pozadina i razvoj

VAANI (što znači “glas” ili “govor” na nekoliko indijskih jezika) izradili su Indijski institut za znanost (IISc) u Bangaloreu kao dio nastojanja da se riješi značajan jaz u resursima govorne građe za indijske jezike. Indijski jezični krajolik među najraznolikijima je na svijetu, obuhvaća stotine jezika i tisuće dijalekata, no većina postojećih skupova podataka o govoru usmjerena je na uži skup dobro opskrbljenih jezika. VAANI je razvijen kako bi se proširila dostupnost podataka za obuku u ovom nedovoljno pokrivenom jezičnom prostoru provođenjem velikih terenskih prikupljanja podataka u geografski i jezično raznolikim regijama diljem zemlje.

Podaci su prikupljeni od približno 110.000 govornika raspoređenih u 120 okruga u 22 indijske države, čime se odražava namjerni napor da se zabilježi stvarna regionalna i dijalektalna raznolikost, a ne oslanjanje na kontrolirane studijske snimke. Skup podataka obuhvaća 86 jezika i dijalekata, od većih planiranih jezika poput hindskog, tamilskog, telugu, bengalskog, kannadskog i malajalamskog do brojnih regionalnih varijanti i plemenskih jezika uključujući gondi, santali, kurukh, wancho i tenyidie, među mnogima drugima.

Sastav skupa podataka i ključne značajke

VAANI ukupno sadrži približno 21.500 sati audiozapisa, što ga čini jednim od najvećih višejezičnih korpusa govora usmjerenih na indijske jezike. Od toga je 835 sati transkribirano, čime se dobivaju tekstualne oznake “na tlu” za podskup prikupljene građe. Skup podataka također uključuje multimodalne elemente, čime je spreman za uporabu izvan konvencionalnih zadataka obrade govora.

Ključne značajke skupa podataka uključuju:

Pokriće 86 jezika i dijalekata, uključujući mnoge varijante s niskim resursima i plemenske varijante
Doprinos oko 110.000 govornika iz različitih geografskih i demografskih pozadina
21.500 ukupnih sati audiozapisa uz 835 sati transkribiranog govora
Terenske snimke koje obuhvaćaju 120 okruga u 22 indijske države
Objavljeno pod licencom CC BY 4.0, što omogućuje široku ponovnu uporabu uz navođenje izvora
Podrška za i unimodalna i multimodalna istraživačka primjene

Podržani zadaci i primjeri uporabe

VAANI je osmišljen kao resurs za širok raspon zadataka obrade govora i jezika. Istraživači i razvojni timovi mogu ga koristiti za treniranje i evaluaciju sustava za automatsko prepoznavanje govora (ASR), sintezu govora iz teksta (TTS), prepoznavanje govornika i modele za identifikaciju jezika. Skup podataka također podržava rad na poboljšanju kvalitete govora te razvoj multimodalnih velikih jezičnih modela (LLM-ova). Njegova širina jezičnog pokrića čini ga posebno relevantnim za usporedna testiranja sustava namijenjenih radu u raznolikom jezičnom okruženju Indije.

S obzirom na uključivanje mnogih jezika i dijalekata s niskim resursima za koje malo ili nimalo prethodnih podataka o govoru postoji, VAANI ima posebnu vrijednost za istraživače usmjerene na izgradnju uključivih jezičnih tehnologija. On pruža temelj za razvoj ASR i alata za obradu prirodnog jezika koji bi mogli služiti zajednicama čiji su jezici povijesno bili odsutni iz mainstream AI razvoja.

Značaj za tehnologiju indijskih jezika

Razmjer i jezična raznolikost VAANI čine ga značajnim doprinosom području višejezičnog istraživanja govora, posebice u kontekstu južnoazijskih jezika. Dokumentirajući govorne varijante plemenskih, ruralnih i regionalnih zajednica uz jezike koji se šire govore, skup podataka bilježi dimenziju jezične baštine Indije koja se rijetko prikazuje u računalnim resursima. Njegova otvorena licenca olakšava uporabu akademskim institucijama, državnim tijelima i industrijskim istraživačima koji rade na uključivijim i reprezentativnijim tehnologijama govora.

VAANI

Kategorije

Teme

Pozadina i razvoj

Sastav skupa podataka i ključne značajke

Podržani zadaci i primjeri uporabe

Značaj za tehnologiju indijskih jezika