Usuli na Maendeleo

VAANI (inayomaanisha “sauti” au “hotuba” katika baadhi ya lugha za Kihindi) iliundwa na Taasisi ya Sayansi ya India (IISc) jijini Bangalore kama sehemu ya jitihada za kushughulikia pengo kubwa katika rasilimali za data ya hotuba kwa lugha za Kihindi. Mazingira ya lugha ya India ni miongoni mwa yaliyo na utofauti mkubwa zaidi duniani, yakijumuisha mamia ya lugha na maelfu ya lahaja, hata hivyo sehemu kubwa ya seti zilizopo za data ya hotuba huzingatia kundi dogo la lugha zilizo na rasilimali nyingi. VAANI ilitengenezwa ili kupanua upatikanaji wa data ya mafunzo kwa nafasi hii ya lugha isiyohudumiwa vya kutosha, kwa kufanya ukusanyaji wa data wa kiwango kikubwa kutoka maeneo mbalimbali ya nchi yenye tofauti za kijiografia na ki-lahaja.

Data ilikusanywa kutoka kwa takriban wasemaji 110,000 waliotawanyika katika wilaya 120 za majimbo 22 ya India, ikionyesha dhamira ya makusudi ya kunasa tofauti halisi za kikanda na za lahaja badala ya kutegemea rekodi za studio zilizo na udhibiti. Seti ya data inajumuisha lugha na lahaja 86, kuanzia lugha kuu zilizopangwa kama Hindi, Kihindi cha Kitamil, Kitelugu, Kibengali, Kikannada, na Kimalayalam hadi aina nyingi za kikanda na lugha za makabila ikiwemo Gondi, Santali, Kurukh, Wancho, na Tenyidie, miongoni mwa nyingine nyingi.

Muundo wa Seti ya Data na Vipengele Muhimu

VAANI ina takriban saa 21,500 za sauti kwa jumla, na kuifanya kuwa mojawapo ya makusanyo makubwa zaidi ya hotuba ya lugha nyingi yanayolenga lugha za India. Kati ya hizo, saa 835 zimeandikwa kwa maandishi, hivyo kutoa maandishi ya ukweli wa msingi (ground-truth) kwa sehemu ya mkusanyiko. Seti ya data pia hujumuisha vipengele vya multimodali, ikiiweka kwa matumizi zaidi ya kazi za kawaida za hotuba.

Sifa kuu za seti ya data ni pamoja na:

Ufunikaji wa lugha na lahaja 86, ikiwemo aina nyingi za rasilimali-chini na za makabila
Mchango wa wasemaji takriban 110,000 kutoka asili mbalimbali za kijiografia na idadi ya watu
Saa 21,500 kwa jumla za sauti pamoja na saa 835 za hotuba iliyoandikwa
Rekodi za uwanjani zinazovuka wilaya 120 katika majimbo 22 ya India
Iliyotolewa chini ya leseni ya CC BY 4.0, kuruhusu matumizi mapana kwa kupewa sifa
Msaada kwa utafiti wa unimodali na multimodali

Kazi Zinazoungwa Mkono na Matumizi

VAANI imeundwa kutumika kama rasilimali kwa aina mbalimbali za kazi za usindikaji wa hotuba na lugha. Watafiti na watengenezaji wanaweza kuitumia kwa mafunzo na tathmini ya mifumo ya utambuzi otomatiki wa hotuba (ASR), usanisi wa hotuba-kwa-maandishi (TTS), utambulisho wa mzungumzaji, na mifano ya utambuzi wa lugha. Seti ya data pia inasaidia kazi za kuboresha ubora wa hotuba (speech enhancement) na uundaji wa miundo mikubwa ya lugha ya multimodali (LLMs). Upeo wake wa ufunikaji wa lugha huifanya iwe muhimu hasa kwa kuweka viwango (benchmarking) vya mifumo inayokusudiwa kufanya kazi katika mazingira tofauti ya lugha ya India.

Kutokana na kuingizwa kwa lugha na lahaja nyingi za rasilimali-chini ambazo awali hazikuwa na data ya hotuba kidogo au haikuwepo kabisa, VAANI ina thamani ya pekee kwa watafiti wanaolenga kujenga teknolojia jumuishi za lugha. Inatoa msingi wa kuendeleza zana za ASR na usindikaji wa lugha asilia ambazo zinaweza kuhudumia jamii zilizo na lugha ambazo kihistoria zimekuwa hazijawakilishwa katika maendeleo ya AI ya kawaida.

Umuhimu kwa Teknolojia ya Lugha za India

Kiwango na utofauti wa lugha wa VAANI vinaifanya iwe mchango wa kipekee katika uwanja wa utafiti wa hotuba wa lugha nyingi, hasa ndani ya muktadha wa lugha za Kusini mwa Asia. Kwa kuandika aina za hotuba kutoka kwa makabila, jamii za vijijini, na jamii za kikanda pamoja na lugha zinazotumiwa kwa upana zaidi, seti ya data inakamata kipengele cha urithi wa lugha ya India ambacho mara chache huwakilishwa katika rasilimali za kiuhesabu. Leseni yake ya wazi huwezesha matumizi na taasisi za kitaaluma, mashirika ya serikali, na watafiti wa sekta ya viwanda wanaofanya kazi kuelekea teknolojia za hotuba jumuishi na zinazowakilisha ipasavyo.

VAANI

Vikundi

Mandhari

Usuli na Maendeleo

Muundo wa Seti ya Data na Vipengele Muhimu

Kazi Zinazoungwa Mkono na Matumizi

Umuhimu kwa Teknolojia ya Lugha za India