Mandhari
VAANI ni seti kubwa ya data ya usemi yenye lugha nyingi iliyotengenezwa na Indian Institute of Science (IISc), Bangalore, inayojumuisha takriban saa 21,500 za sauti zilizokusanywa kutoka kwa takriban wasemaji 110,000 katika wilaya 120 katika majimbo 22 ya India. Inashughulikia lugha na lahaja 86 zinazozungumzwa kote nchini India, ikiwemo lugha kuu zilizopangwa pamoja na aina nyingi za kikanda na za makabila, huku ikijumuisha saa 835 za usemi ulioandikwa kwa maandishi.
Seti hii ya data imeundwa kusaidia kazi mbalimbali za usemi na lugha ikiwemo utambuzi wa usemi kiotomatiki, usanisi wa sauti kutoka maandishi (text-to-speech), utambuzi wa mzungumzaji, utambuzi wa lugha, uimarishaji wa usemi, na uundaji wa miundo ya lugha ya namna nyingi (multimodal). Imetolewa chini ya leseni ya CC BY 4.0, na inalenga hasa kutumiwa kufundisha na kupima viwango vya mifumo ya AI, ikiwa na umuhimu mkubwa kwa watafiti na watengenezaji wanaofanya kazi kwenye lugha za India zenye rasilimali chache na zisizoakisiwa ipasavyo.
Usuli na Maendeleo
VAANI (inayomaanisha “sauti” au “hotuba” katika baadhi ya lugha za Kihindi) iliundwa na Taasisi ya Sayansi ya India (IISc) jijini Bangalore kama sehemu ya jitihada za kushughulikia pengo kubwa katika rasilimali za data ya hotuba kwa lugha za Kihindi. Mazingira ya lugha ya India ni miongoni mwa yaliyo na utofauti mkubwa zaidi duniani, yakijumuisha mamia ya lugha na maelfu ya lahaja, hata hivyo sehemu kubwa ya seti zilizopo za data ya hotuba huzingatia kundi dogo la lugha zilizo na rasilimali nyingi. VAANI ilitengenezwa ili kupanua upatikanaji wa data ya mafunzo kwa nafasi hii ya lugha isiyohudumiwa vya kutosha, kwa kufanya ukusanyaji wa data wa kiwango kikubwa kutoka maeneo mbalimbali ya nchi yenye tofauti za kijiografia na ki-lahaja.
Data ilikusanywa kutoka kwa takriban wasemaji 110,000 waliotawanyika katika wilaya 120 za majimbo 22 ya India, ikionyesha dhamira ya makusudi ya kunasa tofauti halisi za kikanda na za lahaja badala ya kutegemea rekodi za studio zilizo na udhibiti. Seti ya data inajumuisha lugha na lahaja 86, kuanzia lugha kuu zilizopangwa kama Hindi, Kihindi cha Kitamil, Kitelugu, Kibengali, Kikannada, na Kimalayalam hadi aina nyingi za kikanda na lugha za makabila ikiwemo Gondi, Santali, Kurukh, Wancho, na Tenyidie, miongoni mwa nyingine nyingi.
Muundo wa Seti ya Data na Vipengele Muhimu
VAANI ina takriban saa 21,500 za sauti kwa jumla, na kuifanya kuwa mojawapo ya makusanyo makubwa zaidi ya hotuba ya lugha nyingi yanayolenga lugha za India. Kati ya hizo, saa 835 zimeandikwa kwa maandishi, hivyo kutoa maandishi ya ukweli wa msingi (ground-truth) kwa sehemu ya mkusanyiko. Seti ya data pia hujumuisha vipengele vya multimodali, ikiiweka kwa matumizi zaidi ya kazi za kawaida za hotuba.
Sifa kuu za seti ya data ni pamoja na:
- Ufunikaji wa lugha na lahaja 86, ikiwemo aina nyingi za rasilimali-chini na za makabila
- Mchango wa wasemaji takriban 110,000 kutoka asili mbalimbali za kijiografia na idadi ya watu
- Saa 21,500 kwa jumla za sauti pamoja na saa 835 za hotuba iliyoandikwa
- Rekodi za uwanjani zinazovuka wilaya 120 katika majimbo 22 ya India
- Iliyotolewa chini ya leseni ya CC BY 4.0, kuruhusu matumizi mapana kwa kupewa sifa
- Msaada kwa utafiti wa unimodali na multimodali
Kazi Zinazoungwa Mkono na Matumizi
VAANI imeundwa kutumika kama rasilimali kwa aina mbalimbali za kazi za usindikaji wa hotuba na lugha. Watafiti na watengenezaji wanaweza kuitumia kwa mafunzo na tathmini ya mifumo ya utambuzi otomatiki wa hotuba (ASR), usanisi wa hotuba-kwa-maandishi (TTS), utambulisho wa mzungumzaji, na mifano ya utambuzi wa lugha. Seti ya data pia inasaidia kazi za kuboresha ubora wa hotuba (speech enhancement) na uundaji wa miundo mikubwa ya lugha ya multimodali (LLMs). Upeo wake wa ufunikaji wa lugha huifanya iwe muhimu hasa kwa kuweka viwango (benchmarking) vya mifumo inayokusudiwa kufanya kazi katika mazingira tofauti ya lugha ya India.
Kutokana na kuingizwa kwa lugha na lahaja nyingi za rasilimali-chini ambazo awali hazikuwa na data ya hotuba kidogo au haikuwepo kabisa, VAANI ina thamani ya pekee kwa watafiti wanaolenga kujenga teknolojia jumuishi za lugha. Inatoa msingi wa kuendeleza zana za ASR na usindikaji wa lugha asilia ambazo zinaweza kuhudumia jamii zilizo na lugha ambazo kihistoria zimekuwa hazijawakilishwa katika maendeleo ya AI ya kawaida.
Umuhimu kwa Teknolojia ya Lugha za India
Kiwango na utofauti wa lugha wa VAANI vinaifanya iwe mchango wa kipekee katika uwanja wa utafiti wa hotuba wa lugha nyingi, hasa ndani ya muktadha wa lugha za Kusini mwa Asia. Kwa kuandika aina za hotuba kutoka kwa makabila, jamii za vijijini, na jamii za kikanda pamoja na lugha zinazotumiwa kwa upana zaidi, seti ya data inakamata kipengele cha urithi wa lugha ya India ambacho mara chache huwakilishwa katika rasilimali za kiuhesabu. Leseni yake ya wazi huwezesha matumizi na taasisi za kitaaluma, mashirika ya serikali, na watafiti wa sekta ya viwanda wanaofanya kazi kuelekea teknolojia za hotuba jumuishi na zinazowakilisha ipasavyo.