Name: VAANI
Creator: Indian Institute of Science
License: https://creativecommons.org/licenses/by/4.0/

Achtergrond en Ontwikkeling

VAANI (wat “stem” of “spraak” beteken in verskeie Indiese tale) is deur die Indian Institute of Science (IISc) in Bangalore geskep as deel van ’n poging om die beduidende gaping in spraaksdatahulpbronne vir Indiese tale aan te spreek. Indië se taallandskap is een van die mees uiteenlopende ter wêreld, met honderde tale en duisende dialekte, maar die meerderheid bestaande spraaksdatastelle fokus op ’n beperkte stel goed-ondersteunde tale. VAANI is ontwikkel om die beskikbaarheid van opleidingsdata vir hierdie onderbediende taalkundige ruimte uit te brei deur grootskaalse velddata-insameling oor geografies en taalkundig uiteenlopende streke van die land te doen.

Data is ingesamel van ongeveer 110,000 sprekers wat oor 120 distrikte in 22 Indiese state versprei is, wat ’n doelbewuste poging weerspieël om egte streeks- en dialektiese variasie vas te vang eerder as om op beheerde ateljee-opnames staat te maak. Die datastel strek oor 86 tale en dialekte, van groot geskeduleerde tale soos Hindi, Tamil, Telugu, Bengali, Kannada en Malayalam tot talle streeksvariëteite en stamtale, insluitend Gondi, Santali, Kurukh, Wancho en Tenyidie, onder vele ander.

Datastel-samestelling en Sleutelkenmerke

VAANI bestaan uit ongeveer 21,500 uur klankmateriaal in totaal, wat dit een van die grootste veelvuldige-taal spraakkorpusse maak wat op Indiese tale gefokus is. Hiervan is 835 uur getranskribeer, wat grondwaarheid-tekstannotasies vir ’n subset van die versameling verskaf. Die datastel sluit ook multimodale elemente in, wat dit geskik maak vir gebruik buite konvensionele spraaktake.

Sleutelkenmerke van die datastel sluit in:

Dekking van 86 tale en dialekte, insluitend baie lae-hulpbron- en stamtale-variëteite
Bydraes van ongeveer 110,000 sprekers oor uiteenlopende geografiese en demografiese agtergronde
21,500 totale ure klankmateriaal met 835 uur getranskribeerde spraak
Veldopnames wat 120 distrikte in 22 Indiese state dek
Uitgereik onder ’n CC BY 4.0-lisensie, wat breë hergebruik met toeskrywing toelaat
Ondersteuning vir beide unimodale en multimodale navorsings-toepassings

Ondersteunde Take en Gebruiksscenario’s

VAANI is ontwerp om as ’n hulpbron te dien vir ’n wye reeks spraak- en taalverwerkingstake. Navorsers en ontwikkelaars kan dit gebruik om outomatiese spraakherkenning (ASR)-stelsels, teks-na-spraak (TTS)-sintese, sprekeridentifikasie en taalidentifikasiemodelle op te lei en te evalueer. Die datastel ondersteun ook werk oor spraakverbetering en die ontwikkeling van multimodale groottaalmodelle (LLM’s). Die breedte van taaldekking maak dit veral relevant vir die maatstawing van stelsels wat bedoel is om in Indië se uiteenlopende taalkundige omgewing te werk.

Aangesien baie lae-hulpbron-tale en dialekte ingesluit is waarvoor daar min of geen voorafbestaande spraaksdata bestaan nie, hou VAANI besondere waarde in vir navorsers wat daarop fokus om inklusiewe taaltegnologieë te bou. Dit bied ’n grondslag vir die ontwikkeling van ASR- en natuurlike-taalverwerkingnutsmiddels wat gemeenskappe kan bedien wie se tale histories afwesig was uit hoofstroom KI-ontwikkeling.

Belangrikheid vir Indiese Taaltegnologie

Die skaal en taalkundige diversiteit van VAANI maak dit ’n noemenswaardige bydrae tot die veld van veelvuldige-taal spraaknavorsing, veral binne die konteks van Suid-Asiatiese tale. Deur gesproke variëteite van stamme-, landelike en streeks-gemeenskappe saam met meer wydgesproke tale te dokumenteer, vang die datastel ’n dimensie van Indië se taalerfenis vas wat selde in rekenaarhulpbronne verteenwoordig word. Die oop lisensie fasiliteer gebruik deur akademiese instellings, regeringsliggame en nywerheidsnavorsers wat werk aan meer inklusiewe en verteenwoordigende spraaktegnologieë.

VAANI

Kategorie

Temas

Achtergrond en Ontwikkeling

Datastel-samestelling en Sleutelkenmerke

Ondersteunde Take en Gebruiksscenario’s

Belangrikheid vir Indiese Taaltegnologie