Kategorie
Temas
VAANI is ’n grootskaalse, meertalige spraaksdatastel wat deur die Indian Institute of Science (IISc), Bangalore, ontwikkel is, en wat ongeveer 21 500 ure oudio bevat wat van sowat 110 000 sprekers ingesamel is oor 120 distrikte in 22 Indiese state. Dit dek 86 tale en dialekte wat regoor Indië gepraat word, insluitend groot geskeduleerde tale sowel as talle streeks- en stamvariëteite, met 835 ure getranskribeerde spraak.
Die datastel is ontwerp om ’n reeks spraak- en taaltake te ondersteun, insluitend outomatiese spraakherkenning, teks-na-spraak-sintese, sprekeridentifikasie, taalidentifikasie, spraakverbetering, en ontwikkeling van multimodale taalmodelle. Dit is onder ’n CC BY 4.0-lisensie vrygestel en is hoofsaaklik bedoel vir opleiding en maatstawwe (benchmarking) van KI-stelsels, met besondere relevansie vir navorsers en ontwikkelaars wat werk aan lae-hulpbron- en onderverteenwoordigde Indiese tale.
Achtergrond en Ontwikkeling
VAANI (wat “stem” of “spraak” beteken in verskeie Indiese tale) is deur die Indian Institute of Science (IISc) in Bangalore geskep as deel van ’n poging om die beduidende gaping in spraaksdatahulpbronne vir Indiese tale aan te spreek. Indië se taallandskap is een van die mees uiteenlopende ter wêreld, met honderde tale en duisende dialekte, maar die meerderheid bestaande spraaksdatastelle fokus op ’n beperkte stel goed-ondersteunde tale. VAANI is ontwikkel om die beskikbaarheid van opleidingsdata vir hierdie onderbediende taalkundige ruimte uit te brei deur grootskaalse velddata-insameling oor geografies en taalkundig uiteenlopende streke van die land te doen.
Data is ingesamel van ongeveer 110,000 sprekers wat oor 120 distrikte in 22 Indiese state versprei is, wat ’n doelbewuste poging weerspieël om egte streeks- en dialektiese variasie vas te vang eerder as om op beheerde ateljee-opnames staat te maak. Die datastel strek oor 86 tale en dialekte, van groot geskeduleerde tale soos Hindi, Tamil, Telugu, Bengali, Kannada en Malayalam tot talle streeksvariëteite en stamtale, insluitend Gondi, Santali, Kurukh, Wancho en Tenyidie, onder vele ander.
Datastel-samestelling en Sleutelkenmerke
VAANI bestaan uit ongeveer 21,500 uur klankmateriaal in totaal, wat dit een van die grootste veelvuldige-taal spraakkorpusse maak wat op Indiese tale gefokus is. Hiervan is 835 uur getranskribeer, wat grondwaarheid-tekstannotasies vir ’n subset van die versameling verskaf. Die datastel sluit ook multimodale elemente in, wat dit geskik maak vir gebruik buite konvensionele spraaktake.
Sleutelkenmerke van die datastel sluit in:
- Dekking van 86 tale en dialekte, insluitend baie lae-hulpbron- en stamtale-variëteite
- Bydraes van ongeveer 110,000 sprekers oor uiteenlopende geografiese en demografiese agtergronde
- 21,500 totale ure klankmateriaal met 835 uur getranskribeerde spraak
- Veldopnames wat 120 distrikte in 22 Indiese state dek
- Uitgereik onder ’n CC BY 4.0-lisensie, wat breë hergebruik met toeskrywing toelaat
- Ondersteuning vir beide unimodale en multimodale navorsings-toepassings
Ondersteunde Take en Gebruiksscenario’s
VAANI is ontwerp om as ’n hulpbron te dien vir ’n wye reeks spraak- en taalverwerkingstake. Navorsers en ontwikkelaars kan dit gebruik om outomatiese spraakherkenning (ASR)-stelsels, teks-na-spraak (TTS)-sintese, sprekeridentifikasie en taalidentifikasiemodelle op te lei en te evalueer. Die datastel ondersteun ook werk oor spraakverbetering en die ontwikkeling van multimodale groottaalmodelle (LLM’s). Die breedte van taaldekking maak dit veral relevant vir die maatstawing van stelsels wat bedoel is om in Indië se uiteenlopende taalkundige omgewing te werk.
Aangesien baie lae-hulpbron-tale en dialekte ingesluit is waarvoor daar min of geen voorafbestaande spraaksdata bestaan nie, hou VAANI besondere waarde in vir navorsers wat daarop fokus om inklusiewe taaltegnologieë te bou. Dit bied ’n grondslag vir die ontwikkeling van ASR- en natuurlike-taalverwerkingnutsmiddels wat gemeenskappe kan bedien wie se tale histories afwesig was uit hoofstroom KI-ontwikkeling.
Belangrikheid vir Indiese Taaltegnologie
Die skaal en taalkundige diversiteit van VAANI maak dit ’n noemenswaardige bydrae tot die veld van veelvuldige-taal spraaknavorsing, veral binne die konteks van Suid-Asiatiese tale. Deur gesproke variëteite van stamme-, landelike en streeks-gemeenskappe saam met meer wydgesproke tale te dokumenteer, vang die datastel ’n dimensie van Indië se taalerfenis vas wat selde in rekenaarhulpbronne verteenwoordig word. Die oop lisensie fasiliteer gebruik deur akademiese instellings, regeringsliggame en nywerheidsnavorsers wat werk aan meer inklusiewe en verteenwoordigende spraaktegnologieë.