21.500 hours CC-BY 4.0 Training Svi jezici

Teme

voice audionlp

VAANI je skup podataka velikih razmjera za višeslojni govor koji je razvilo Indijsko institutsko vijeće za znanost (IISc) u Bangaloreu, a sadrži približno 21.500 sati audiozapisa prikupljenih od oko 110.000 govornika u 120 okruga diljem 22 indijske države. Obuhvaća 86 jezika i dijalekata koji se govore diljem Indije, uključujući glavne jezike iz rasporeda, kao i brojne regionalne i plemenske varijante, uz 835 sati transkribiranog govora.

Skup podataka osmišljen je za podršku nizu zadataka vezanih uz govor i jezik, uključujući automatsko prepoznavanje govora, sintezu govora iz teksta, identifikaciju govornika, identifikaciju jezika, poboljšanje govora i razvoj multimodalnih jezičnih modela. Objavljen pod licencom CC BY 4.0, prvenstveno je namijenjen treniranju i vrednovanju AI sustava, s osobitom relevantnošću za istraživače i razvojne inženjere koji rade na jezicima Indije s niskim resursima i nedovoljno zastupljenima.

Pozadina i razvoj

VAANI (što znači “glas” ili “govor” na nekoliko indijskih jezika) izradili su Indijski institut za znanost (IISc) u Bangaloreu kao dio nastojanja da se riješi značajan jaz u resursima govorne građe za indijske jezike. Indijski jezični krajolik među najraznolikijima je na svijetu, obuhvaća stotine jezika i tisuće dijalekata, no većina postojećih skupova podataka o govoru usmjerena je na uži skup dobro opskrbljenih jezika. VAANI je razvijen kako bi se proširila dostupnost podataka za obuku u ovom nedovoljno pokrivenom jezičnom prostoru provođenjem velikih terenskih prikupljanja podataka u geografski i jezično raznolikim regijama diljem zemlje.

Podaci su prikupljeni od približno 110.000 govornika raspoređenih u 120 okruga u 22 indijske države, čime se odražava namjerni napor da se zabilježi stvarna regionalna i dijalektalna raznolikost, a ne oslanjanje na kontrolirane studijske snimke. Skup podataka obuhvaća 86 jezika i dijalekata, od većih planiranih jezika poput hindskog, tamilskog, telugu, bengalskog, kannadskog i malajalamskog do brojnih regionalnih varijanti i plemenskih jezika uključujući gondi, santali, kurukh, wancho i tenyidie, među mnogima drugima.

Sastav skupa podataka i ključne značajke

VAANI ukupno sadrži približno 21.500 sati audiozapisa, što ga čini jednim od najvećih višejezičnih korpusa govora usmjerenih na indijske jezike. Od toga je 835 sati transkribirano, čime se dobivaju tekstualne oznake “na tlu” za podskup prikupljene građe. Skup podataka također uključuje multimodalne elemente, čime je spreman za uporabu izvan konvencionalnih zadataka obrade govora.

Ključne značajke skupa podataka uključuju:

  • Pokriće 86 jezika i dijalekata, uključujući mnoge varijante s niskim resursima i plemenske varijante
  • Doprinos oko 110.000 govornika iz različitih geografskih i demografskih pozadina
  • 21.500 ukupnih sati audiozapisa uz 835 sati transkribiranog govora
  • Terenske snimke koje obuhvaćaju 120 okruga u 22 indijske države
  • Objavljeno pod licencom CC BY 4.0, što omogućuje široku ponovnu uporabu uz navođenje izvora
  • Podrška za i unimodalna i multimodalna istraživačka primjene

Podržani zadaci i primjeri uporabe

VAANI je osmišljen kao resurs za širok raspon zadataka obrade govora i jezika. Istraživači i razvojni timovi mogu ga koristiti za treniranje i evaluaciju sustava za automatsko prepoznavanje govora (ASR), sintezu govora iz teksta (TTS), prepoznavanje govornika i modele za identifikaciju jezika. Skup podataka također podržava rad na poboljšanju kvalitete govora te razvoj multimodalnih velikih jezičnih modela (LLM-ova). Njegova širina jezičnog pokrića čini ga posebno relevantnim za usporedna testiranja sustava namijenjenih radu u raznolikom jezičnom okruženju Indije.

S obzirom na uključivanje mnogih jezika i dijalekata s niskim resursima za koje malo ili nimalo prethodnih podataka o govoru postoji, VAANI ima posebnu vrijednost za istraživače usmjerene na izgradnju uključivih jezičnih tehnologija. On pruža temelj za razvoj ASR i alata za obradu prirodnog jezika koji bi mogli služiti zajednicama čiji su jezici povijesno bili odsutni iz mainstream AI razvoja.

Značaj za tehnologiju indijskih jezika

Razmjer i jezična raznolikost VAANI čine ga značajnim doprinosom području višejezičnog istraživanja govora, posebice u kontekstu južnoazijskih jezika. Dokumentirajući govorne varijante plemenskih, ruralnih i regionalnih zajednica uz jezike koji se šire govore, skup podataka bilježi dimenziju jezične baštine Indije koja se rijetko prikazuje u računalnim resursima. Njegova otvorena licenca olakšava uporabu akademskim institucijama, državnim tijelima i industrijskim istraživačima koji rade na uključivijim i reprezentativnijim tehnologijama govora.

Izvješće