Pasbackgroundi dhe Zhvillimi

VAANI (që do të thotë "zë" ose "fjalim" në disa gjuhë indiane) u krijua nga Instituti Indian i Shkencës (IISc) në Bangalore si pjesë e një përpjekjeje për të adresuar diferencën e rëndësishme në burimet e të dhënave të fjalimit për gjuhët indiane. Peizazhi gjuhësor i Indisë është ndër më të ndryshmit në botë, duke përfshirë qindra gjuhë dhe mijëra dialekte, megjithatë shumica e grupeve ekzistuese të të dhënave të fjalimit përqendrohen në një grup të ngushtë gjuhësh të mirëburuar. VAANI u zhvillua për të zgjeruar disponueshmërinë e të dhënave të trajnimit për këtë hapësirë gjuhësore të nënshërbyer duke kryer mbledhje të dhënash në terren në shkallë të gjerë në rajone gjeografike dhe gjuhësore të ndryshme të vendit.

Të dhënat u mbledhën nga rreth 110,000 folës të shpërndarë në 120 distrikte në 22 shtete indiane, duke reflektuar një përpjekje të qëllimshme për të kapur variacionin e vërtetë rajonal dhe dialektal në vend që të mbështetet në regjistrime të kontrolluara në studio. Grupi i të dhënave përfshin 86 gjuhë dhe dialekte, duke filluar nga gjuhët kryesore të planifikuara si Hindi, Tamil, Telugu, Bengali, Kannada dhe Malayalam deri te shumëllojshmëri rajonale dhe gjuhë tribale përfshirë Gondi, Santali, Kurukh, Wancho dhe Tenyidie, ndër të tjera.

Kompozita e Grupit të të Dhënave dhe Karakteristikat Kryesore

VAANI përbëhet nga rreth 21,500 orë audio në total, duke e bërë atë një nga korporat më të mëdha shumëgjuhësore të fjalimit të përqendruar në gjuhët indiane. Nga këto, 835 orë janë transkriptuar, duke ofruar annotime tekstuale të vërteta për një nëngrup të koleksionit. Grupi i të dhënave gjithashtu përfshin elemente multimodale, duke e pozicionuar atë për përdorim përtej detyrave konvencionale të fjalimit.

Karakteristikat kryesore të grupit të të dhënave përfshijnë:

Mbulimi i 86 gjuhëve dhe dialekteve, duke përfshirë shumë varietete me burime të ulta dhe gjuhë tribale
Kontributet nga rreth 110,000 folës nga sfondet gjeografike dhe demografike të ndryshme
21,500 orë totale audio me 835 orë fjalim të transkriptuar
Regjistrime në terren që përfshijnë 120 distrikte në 22 shtete indiane
Publikuar nën një licencë CC BY 4.0, duke lejuar ripërdorim të gjerë me atribucion
Mbështetje për aplikacione kërkimore si unimodale ashtu edhe multimodale

Detyrat e Mbështetura dhe Rastet e Përdorimit

VAANI është dizajnuar për të shërbyer si një burim për një gamë të gjerë detyrash të përpunimit të fjalimit dhe gjuhës. Kërkuesit dhe zhvilluesit mund ta përdorin atë për trajnim dhe vlerësim të sistemeve të njohjes automatike të fjalimit (ASR), sintezës tekst në fjalim (TTS), identifikimin e folësve dhe modeleve të identifikimit të gjuhës. Grupi i të dhënave gjithashtu mbështet punën mbi përmirësimin e fjalimit dhe zhvillimin e modeleve të mëdha gjuhësore multimodale (LLMs). Gjerësia e mbulimit të gjuhëve e bën atë veçanërisht të rëndësishme për sistemet e benchmark që synojnë të funksionojnë në mjedisin e ndryshëm gjuhësor të Indisë.

Duke pasur parasysh përfshirjen e shumë gjuhëve dhe dialekteve me burime të ulta për të cilat ekzistojnë pak ose aspak të dhëna të mëparshme të fjalimit, VAANI ka një vlerë të veçantë për kërkuesit që përqendrohen në ndërtimin e teknologjive gjuhësore përfshirëse. Ajo ofron një themel për zhvillimin e mjeteve ASR dhe përpunimit të gjuhës natyrore që mund të shërbejnë për komunitetet të cilat historikisht kanë qenë të pranishme në zhvillimin e AI në masë.

Rëndësia për Teknologjinë e Gjuhës Indiane

Shkalla dhe diversiteti gjuhësor i VAANI e bëjnë atë një kontribut të rëndësishëm në fushën e kërkimit të fjalimit shumëgjuhësor, veçanërisht brenda kontekstit të gjuhëve të Azisë Jugore. Duke dokumentuar varietete të folura nga komunitetet tribale, rurale dhe rajonale përveç gjuhëve më të folura, grupi i të dhënave kap një dimension të trashëgimisë gjuhësore të Indisë që rrallë përfaqësohet në burimet kompjuterike. Licenca e saj e hapur lehtëson përdorimin nga institucionet akademike, organet qeveritare dhe kërkuesit e industrisë që punojnë drejt teknologjive të fjalimit më përfshirëse dhe përfaqësuese.

VAANI

Kategori

Tema

Pasbackgroundi dhe Zhvillimi

Kompozita e Grupit të të Dhënave dhe Karakteristikat Kryesore

Detyrat e Mbështetura dhe Rastet e Përdorimit

Rëndësia për Teknologjinë e Gjuhës Indiane