Asalka iyo Horumarinta

VAANI (oo macnaheedu yahay "cod" ama "hadal" dhowr luqadood oo Hindi ah) waxaa abuuray Machadka Farsamada ee Hindiya (IISc) ee Bangalore iyada oo qayb ka ah dadaal lagu xallinayo farqiga weyn ee agabka xogta hadalka ee luqadaha Hindiya. Muuqaalka luqadeed ee Hindiya waa mid ka mid ah kuwa ugu kala duwanaanshaha badan adduunka, isagoo ka kooban boqolaal luqadood iyo kumannaan lahjadood, hase yeeshee inta badan xog-ururinta hadalka ee jira waxay diiradda saaraan tiro yar oo luqado si fiican loo taageeray. VAANI waxaa loo sameeyay in lagu ballaariyo helitaanka xogta tababarka ee booskan luqadeed ee aan si ku filan loo adeegsan, iyadoo la qabanayo ururinta xogta goobta ee heer ballaaran dalka oo dhan, meelaha juqraafi ahaan iyo luqad ahaanba kala duwan.

Xogta waxaa laga soo ururiyey qiyaastii 110,000 ku hadleyaal oo ku kala baahsan 120 degmo gudaha 22 gobol oo Hindi ah, taas oo muujinaysa dadaal ula kac ah oo lagu qabto kala duwanaanshaha dhabta ah ee gobolka iyo lahjada, halkii laga ku tiirsanaan lahaa duubitaanno istuudiyo oo la xakameeyey. Xog-ururintani waxay dabooshaa 86 luqadood iyo lahjado, laga bilaabo luqadaha waaweyn ee jadwalaysan sida Hindi, Tamil, Telugu, Bengali, Kannada, iyo Malayalam ilaa noocyo badan oo goboleed iyo luqado qabiil sida Gondi, Santali, Kurukh, Wancho, iyo Tenyidie, iyo kuwo kale oo badan.

Qaybaha Xog-ururinta iyo Astaamaha Muhiimka ah

VAANI waxay ka kooban tahay qiyaastii 21,500 saacadood oo maqal ah guud ahaan, taas oo ka dhigaysa mid ka mid ah kuwa ugu waaweyn ee xog-ururinta hadalka ee luqado badan leh ee diiradda saaraya luqadaha Hindiya. Kuwaas, 835 saacadood ayaa la qoray (transcribed), taas oo bixisa qoraallo qoraal ah oo xaqiiqo ah (ground-truth) ee qayb ka mid ah ururinta. Xog-ururintani sidoo kale waxay ku dartay walxo badan oo habab kala duwan ah (multimodal), taas oo u diyaarinaysa in loo adeegsado hawlo ka baxsan kuwa caadiga ah ee hadalka.

Astaamaha muhiimka ah ee xog-ururintan waxaa ka mid ah:

Ka-qaybgalka 86 luqadood iyo lahjado, oo ay ku jiraan noocyo badan oo leh taageero hoose iyo luqado qabiil
Ka qayb-qaadashada qiyaastii 110,000 ku hadleyaal oo ka kala yimid asallo juqraafi iyo dadnimo oo kala duwan
21,500 saacadood oo maqal ah guud ahaan, iyo 835 saacadood oo hadal la qoray
Duubitaanno goobeed oo ka kooban 120 degmo gudaha 22 gobol oo Hindi ah
Loo sii daayay shati CC BY 4.0, taas oo u oggolaanaysa dib-u-isticmaal ballaaran iyadoo la siinayo tixraac
Taageero cilmi-baaris oo loogu talagalay labadaba cod keliya (unimodal) iyo cod+qaab kale (multimodal)

Hawlaha La Taageeray iyo Isticmaalka

VAANI waxaa loo sameeyay in ay noqoto il lagu adeegsan karo hawlo kala duwan oo farsamaynta hadalka iyo luqadda ah. Cilmi-baarayaal iyo horumariyayaal waxay u adeegsan karaan tababarka iyo qiimeynta nidaamyada aqoonsiga hadalka ee tooska ah (ASR), isku-dhafka hadalka ilaa qoraal (TTS), aqoonsiga qofka ku hadla (speaker identification), iyo moodooyinka aqoonsiga luqadda (language identification). Xog-ururintani sidoo kale waxay taageertaa shaqo ku saabsan hagaajinta tayada hadalka (speech enhancement) iyo horumarinta moodooyinka waaweyn ee luqadda ee multimodal (LLMs). Baaxadda ay ka kooban tahay luqado badan waxay ka dhigaysaa mid si gaar ah muhiim ugu ah tijaabinta (benchmarking) nidaamyada loogu talagalay in ay ka shaqeeyaan deegaanka luqadeed ee kala duwan ee Hindiya.

Iyada oo ay ku jirto luqado iyo lahjado badan oo leh taageero hoose, kuwaas oo aan jirin wax xog hadal ah oo hore u badan ama aan jirin gabi ahaanba, VAANI waxay leedahay qiime gaar ah cilmi-baarayaasha diiradda saaraya dhisidda tignoolajiyada luqadeed ee loo dhan yahay. Waxay bixisaa saldhig lagu dhisayo qalabyo ASR iyo farsamaynta luqadda dabiiciga ah (natural language processing) oo u adeegi kara bulshooyinka luqadahoodu taariikh ahaan uga maqnaayeen horumarinta AI-da ee caadiga ah.

Muhiimadda Tignoolajiyada Luqadaha Hindiya

Baaxadda iyo kala duwanaanshaha luqadeed ee VAANI waxay ka dhigayaan tabar la taaban karo oo ku saabsan goobta cilmi-baarista hadalka ee luqado badan leh, gaar ahaan marka la eego luqadaha Koonfurta Aasiya. Iyadoo la duubayo noocyo hadal ah oo ka imanaya bulshooyin qabiil, miyiga, iyo gobollo, marka lagu daro luqado si ballaaran loo isticmaalo, xog-ururintani waxay qabataa dhinac ka mid ah dhaxalka luqadeed ee Hindiya oo si dhif ah uga muuqda ilaha xisaabinta. Shatigeeda furan wuxuu fududeeyaa in ay adeegsadaan hay'ado tacliimeed, hay'ado dowladeed, iyo cilmi-baarayaal ka socda warshadaha kuwaas oo ka shaqeynaya tignoolajiyad hadal oo loo dhan yahay oo matala.

VAANI

Qaybaha

Mawduucyo

Asalka iyo Horumarinta

Qaybaha Xog-ururinta iyo Astaamaha Muhiimka ah

Hawlaha La Taageeray iyo Isticmaalka

Muhiimadda Tignoolajiyada Luqadaha Hindiya