Kategoriji
Temi
VAANI huwa sett ta’ dejta multilingwi ta’ diskors fuq skala kbira żviluppat mill-Indian Institute of Science (IISc), Bangalore, li fih madwar 21,500 siegħa ta’ awdjo miġbura minn madwar 110,000 kelliem f’120 distrett f’22 stat Indjan. Ikopri 86 lingwa u djalett mitkellma madwar l-Indja, inklużi lingwi ewlenin skedati kif ukoll bosta varjetajiet reġjonali u tribali, b’835 siegħa ta’ diskors traskritt.
Is-sett ta’ dejta huwa mfassal biex jappoġġa firxa ta’ kompiti relatati mad-diskors u l-lingwa, inklużi r-rikonoxximent awtomatiku tad-diskors, is-sinteżi tat-test għal diskors, l-identifikazzjoni tal-kelliem, l-identifikazzjoni tal-lingwa, it-titjib tad-diskors, u l-iżvilupp ta’ mudelli tal-lingwa multimodali. Maħruġ taħt liċenzja CC BY 4.0, huwa maħsub primarjament għat-taħriġ u l-benchmarking ta’ sistemi tal-IA, b’rilevanza partikolari għar-riċerkaturi u l-iżviluppaturi li jaħdmu fuq lingwi Indjani b’riżorsi limitati u sottorappreżentati.
Sfond u Żvilupp
VAANI (li tfisser "vuċi" jew "diskors" f’diversi lingwi Indjani) inħolqot mill-Indian Institute of Science (IISc) f’Bangalore bħala parti minn sforz biex jiġi indirizzat in-nuqqas sinifikanti ta’ riżorsi ta’ data tad-diskors għal-lingwi Indjani. Il-pajsaġġ lingwistiku tal-Indja huwa fost l-aktar diversi fid-dinja, u jinkludi mijiet ta’ lingwi u eluf ta’ djaletti, iżda l-maġġoranza tas-settijiet ta’ data tad-diskors eżistenti jiffokaw fuq sett ristrett ta’ lingwi b’riżorsi abbundanti. VAANI ġiet żviluppata biex tespandi d-disponibbiltà ta’ data ta’ taħriġ għal dan l-ispazju lingwistiku mhux moqdi biżżejjed billi twettaq ġbir ta’ data fuq skala kbira fuq il-post f’reġjuni tal-pajjiż li huma diversi kemm ġeografikament kif ukoll lingwistikament.
Id-data nġabret minn madwar 110,000 kelliem mifruxa fuq 120 distrett fi 22 stat Indjan, u dan jirrifletti sforz intenzjonat biex tinqabad varjazzjoni reġjonali u djalettali ġenwina minflok ma wieħed jiddependi fuq reġistrazzjonijiet ikkontrollati fi studjo. Is-sett ta’ data jkopri 86 lingwa u djalett, li jvarjaw minn lingwi ewlenin skedati bħal Hindi, Tamil, Telugu, Bengali, Kannada, u Malayalam sa bosta varjetajiet reġjonali u lingwi tribali inklużi Gondi, Santali, Kurukh, Wancho, u Tenyidie, fost ħafna oħrajn.
Kompożizzjoni tas-Sett ta’ Data u Karatteristiċi Ewlenin
VAANI jinkludi madwar 21,500 siegħa ta’ awdjo b’kollox, u dan jagħmilha waħda mill-akbar korpora multilingwi tad-diskors iffukati fuq il-lingwi Indjani. Minn dawn, 835 siegħa ġew traskritti, u b’hekk jipprovdu annotazzjonijiet testwali ta’ referenza għal parti mill-kollezzjoni. Is-sett ta’ data jinkorpora wkoll elementi multimodali, u b’hekk ikun adattat għall-użu lil hinn mill-kompiti konvenzjonali tad-diskors.
Karatteristiċi ewlenin tas-sett ta’ data jinkludu:
- Kopertura ta’ 86 lingwa u djalett, inklużi ħafna varjetajiet b’riżorsi limitati u tribali
- Kontribuzzjonijiet minn madwar 110,000 kelliem minn sfondi ġeografiċi u demografiċi diversi
- 21,500 siegħa totali ta’ awdjo b’835 siegħa ta’ diskors traskritt
- Reġistrazzjonijiet fuq il-post li jkopru 120 distrett fi 22 stat Indjan
- Maħruġ taħt liċenzja CC BY 4.0, li tippermetti użu mill-ġdid wiesa’ b’attribuzzjoni
- Appoġġ kemm għal applikazzjonijiet ta’ riċerka unimodali kif ukoll multimodali
Kompiti Appoġġjati u Każijiet ta’ Użu
VAANI hija mfassla biex isservi bħala riżorsa għal firxa wiesgħa ta’ kompiti tal-ipproċessar tad-diskors u tal-lingwa. Ir-riċerkaturi u l-iżviluppaturi jistgħu jużawha għat-taħriġ u l-evalwazzjoni ta’ sistemi ta’ rikonoxximent awtomatiku tad-diskors (ASR), sintesi text-to-speech (TTS), identifikazzjoni tal-kelliem, u mudelli ta’ identifikazzjoni tal-lingwa. Is-sett ta’ data jappoġġja wkoll xogħol fuq it-titjib tad-diskors u l-iżvilupp ta’ mudelli kbar tal-lingwa multimodali (LLMs). Il-wisa’ tal-kopertura lingwistika tagħha jagħmilha partikolarment rilevanti għall-benchmarking ta’ sistemi maħsuba biex joperaw fl-ambjent lingwistiku divers tal-Indja.
Minħabba l-inklużjoni ta’ ħafna lingwi u djaletti b’riżorsi limitati li għalihom teżisti ftit jew xejn data tad-diskors minn qabel, VAANI għandha valur partikolari għar-riċerkaturi ffukati fuq il-bini ta’ teknoloġiji lingwistiċi inklużivi. Tipprovdi bażi għall-iżvilupp ta’ għodod ta’ ASR u ta’ pproċessar tal-lingwa naturali li jistgħu jaqdu komunitajiet li l-lingwi tagħhom storikament kienu assenti mill-iżvilupp ewlieni tal-AI.
Importanza għat-Teknoloġija tal-Lingwi Indjani
L-iskala u d-diversità lingwistika ta’ VAANI jagħmluha kontribut notevoli għall-qasam tar-riċerka multilingwi tad-diskors, partikolarment fil-kuntest tal-lingwi tal-Asja t’Isfel. Billi tiddokumenta varjetajiet mitkellma minn komunitajiet tribali, rurali, u reġjonali flimkien ma’ lingwi mitkellma b’mod aktar mifrux, is-sett ta’ data jaqbad dimensjoni tal-wirt lingwistiku tal-Indja li rarament tkun rappreżentata fir-riżorsi komputazzjonali. Il-liċenzja miftuħa tagħha tiffaċilita l-użu minn istituzzjonijiet akkademiċi, korpi governattivi, u riċerkaturi tal-industrija li qed jaħdmu lejn teknoloġiji tad-diskors aktar inklużivi u rappreżentattivi.