Name: VAANI
Creator: Indian Institute of Science
License: https://creativecommons.org/licenses/by/4.0/

Sfond u Żvilupp

VAANI (li tfisser "vuċi" jew "diskors" f’diversi lingwi Indjani) inħolqot mill-Indian Institute of Science (IISc) f’Bangalore bħala parti minn sforz biex jiġi indirizzat in-nuqqas sinifikanti ta’ riżorsi ta’ data tad-diskors għal-lingwi Indjani. Il-pajsaġġ lingwistiku tal-Indja huwa fost l-aktar diversi fid-dinja, u jinkludi mijiet ta’ lingwi u eluf ta’ djaletti, iżda l-maġġoranza tas-settijiet ta’ data tad-diskors eżistenti jiffokaw fuq sett ristrett ta’ lingwi b’riżorsi abbundanti. VAANI ġiet żviluppata biex tespandi d-disponibbiltà ta’ data ta’ taħriġ għal dan l-ispazju lingwistiku mhux moqdi biżżejjed billi twettaq ġbir ta’ data fuq skala kbira fuq il-post f’reġjuni tal-pajjiż li huma diversi kemm ġeografikament kif ukoll lingwistikament.

Id-data nġabret minn madwar 110,000 kelliem mifruxa fuq 120 distrett fi 22 stat Indjan, u dan jirrifletti sforz intenzjonat biex tinqabad varjazzjoni reġjonali u djalettali ġenwina minflok ma wieħed jiddependi fuq reġistrazzjonijiet ikkontrollati fi studjo. Is-sett ta’ data jkopri 86 lingwa u djalett, li jvarjaw minn lingwi ewlenin skedati bħal Hindi, Tamil, Telugu, Bengali, Kannada, u Malayalam sa bosta varjetajiet reġjonali u lingwi tribali inklużi Gondi, Santali, Kurukh, Wancho, u Tenyidie, fost ħafna oħrajn.

Kompożizzjoni tas-Sett ta’ Data u Karatteristiċi Ewlenin

VAANI jinkludi madwar 21,500 siegħa ta’ awdjo b’kollox, u dan jagħmilha waħda mill-akbar korpora multilingwi tad-diskors iffukati fuq il-lingwi Indjani. Minn dawn, 835 siegħa ġew traskritti, u b’hekk jipprovdu annotazzjonijiet testwali ta’ referenza għal parti mill-kollezzjoni. Is-sett ta’ data jinkorpora wkoll elementi multimodali, u b’hekk ikun adattat għall-użu lil hinn mill-kompiti konvenzjonali tad-diskors.

Karatteristiċi ewlenin tas-sett ta’ data jinkludu:

Kopertura ta’ 86 lingwa u djalett, inklużi ħafna varjetajiet b’riżorsi limitati u tribali
Kontribuzzjonijiet minn madwar 110,000 kelliem minn sfondi ġeografiċi u demografiċi diversi
21,500 siegħa totali ta’ awdjo b’835 siegħa ta’ diskors traskritt
Reġistrazzjonijiet fuq il-post li jkopru 120 distrett fi 22 stat Indjan
Maħruġ taħt liċenzja CC BY 4.0, li tippermetti użu mill-ġdid wiesa’ b’attribuzzjoni
Appoġġ kemm għal applikazzjonijiet ta’ riċerka unimodali kif ukoll multimodali

Kompiti Appoġġjati u Każijiet ta’ Użu

VAANI hija mfassla biex isservi bħala riżorsa għal firxa wiesgħa ta’ kompiti tal-ipproċessar tad-diskors u tal-lingwa. Ir-riċerkaturi u l-iżviluppaturi jistgħu jużawha għat-taħriġ u l-evalwazzjoni ta’ sistemi ta’ rikonoxximent awtomatiku tad-diskors (ASR), sintesi text-to-speech (TTS), identifikazzjoni tal-kelliem, u mudelli ta’ identifikazzjoni tal-lingwa. Is-sett ta’ data jappoġġja wkoll xogħol fuq it-titjib tad-diskors u l-iżvilupp ta’ mudelli kbar tal-lingwa multimodali (LLMs). Il-wisa’ tal-kopertura lingwistika tagħha jagħmilha partikolarment rilevanti għall-benchmarking ta’ sistemi maħsuba biex joperaw fl-ambjent lingwistiku divers tal-Indja.

Minħabba l-inklużjoni ta’ ħafna lingwi u djaletti b’riżorsi limitati li għalihom teżisti ftit jew xejn data tad-diskors minn qabel, VAANI għandha valur partikolari għar-riċerkaturi ffukati fuq il-bini ta’ teknoloġiji lingwistiċi inklużivi. Tipprovdi bażi għall-iżvilupp ta’ għodod ta’ ASR u ta’ pproċessar tal-lingwa naturali li jistgħu jaqdu komunitajiet li l-lingwi tagħhom storikament kienu assenti mill-iżvilupp ewlieni tal-AI.

Importanza għat-Teknoloġija tal-Lingwi Indjani

L-iskala u d-diversità lingwistika ta’ VAANI jagħmluha kontribut notevoli għall-qasam tar-riċerka multilingwi tad-diskors, partikolarment fil-kuntest tal-lingwi tal-Asja t’Isfel. Billi tiddokumenta varjetajiet mitkellma minn komunitajiet tribali, rurali, u reġjonali flimkien ma’ lingwi mitkellma b’mod aktar mifrux, is-sett ta’ data jaqbad dimensjoni tal-wirt lingwistiku tal-Indja li rarament tkun rappreżentata fir-riżorsi komputazzjonali. Il-liċenzja miftuħa tagħha tiffaċilita l-użu minn istituzzjonijiet akkademiċi, korpi governattivi, u riċerkaturi tal-industrija li qed jaħdmu lejn teknoloġiji tad-diskors aktar inklużivi u rappreżentattivi.

VAANI

Kategoriji

Temi

Sfond u Żvilupp

Kompożizzjoni tas-Sett ta’ Data u Karatteristiċi Ewlenin

Kompiti Appoġġjati u Każijiet ta’ Użu

Importanza għat-Teknoloġija tal-Lingwi Indjani