21 500 hours CC-BY 4.0 Training Të gjitha gjuhët

Tema

voice audionlp

VAANI është një dataset i madh shumëgjuhësh për të folur, i zhvilluar nga Instituti Indian i Shkencës (IISc), Bangalore, që përmban rreth 21,500 orë audio të mbledhura nga rreth 110,000 folës në 120 qarqe në 22 shtete indiane. Ai mbulon 86 gjuhë dhe dialekte që fliten në Indi, duke përfshirë gjuhët kryesore të planifikuara si dhe shumë variante rajonale dhe tribale, me 835 orë të foluri të transkriptuara.

Dataseti është dizajnuar për të mbështetur një gamë të detyrave të të folurit dhe gjuhës, duke përfshirë njohjen automatike të të folurit, sintezën e tekst-it në të folur, identifikimin e folësve, identifikimin e gjuhës, përmirësimin e të folurit dhe zhvillimin e modeleve gjuhësore multimodale. I lëshuar nën një licencë CC BY 4.0, ai është kryesisht i destinuar për trajnimin dhe vlerësimin e sistemeve të AI, me një rëndësi të veçantë për hulumtuesit dhe zhvilluesit që punojnë me gjuhë indiane me burime të ulëta dhe të nënfaqësuara.

Pasbackgroundi dhe Zhvillimi

VAANI (që do të thotë "zë" ose "fjalim" në disa gjuhë indiane) u krijua nga Instituti Indian i Shkencës (IISc) në Bangalore si pjesë e një përpjekjeje për të adresuar diferencën e rëndësishme në burimet e të dhënave të fjalimit për gjuhët indiane. Peizazhi gjuhësor i Indisë është ndër më të ndryshmit në botë, duke përfshirë qindra gjuhë dhe mijëra dialekte, megjithatë shumica e grupeve ekzistuese të të dhënave të fjalimit përqendrohen në një grup të ngushtë gjuhësh të mirëburuar. VAANI u zhvillua për të zgjeruar disponueshmërinë e të dhënave të trajnimit për këtë hapësirë gjuhësore të nënshërbyer duke kryer mbledhje të dhënash në terren në shkallë të gjerë në rajone gjeografike dhe gjuhësore të ndryshme të vendit.

Të dhënat u mbledhën nga rreth 110,000 folës të shpërndarë në 120 distrikte në 22 shtete indiane, duke reflektuar një përpjekje të qëllimshme për të kapur variacionin e vërtetë rajonal dhe dialektal në vend që të mbështetet në regjistrime të kontrolluara në studio. Grupi i të dhënave përfshin 86 gjuhë dhe dialekte, duke filluar nga gjuhët kryesore të planifikuara si Hindi, Tamil, Telugu, Bengali, Kannada dhe Malayalam deri te shumëllojshmëri rajonale dhe gjuhë tribale përfshirë Gondi, Santali, Kurukh, Wancho dhe Tenyidie, ndër të tjera.

Kompozita e Grupit të të Dhënave dhe Karakteristikat Kryesore

VAANI përbëhet nga rreth 21,500 orë audio në total, duke e bërë atë një nga korporat më të mëdha shumëgjuhësore të fjalimit të përqendruar në gjuhët indiane. Nga këto, 835 orë janë transkriptuar, duke ofruar annotime tekstuale të vërteta për një nëngrup të koleksionit. Grupi i të dhënave gjithashtu përfshin elemente multimodale, duke e pozicionuar atë për përdorim përtej detyrave konvencionale të fjalimit.

Karakteristikat kryesore të grupit të të dhënave përfshijnë:

  • Mbulimi i 86 gjuhëve dhe dialekteve, duke përfshirë shumë varietete me burime të ulta dhe gjuhë tribale
  • Kontributet nga rreth 110,000 folës nga sfondet gjeografike dhe demografike të ndryshme
  • 21,500 orë totale audio me 835 orë fjalim të transkriptuar
  • Regjistrime në terren që përfshijnë 120 distrikte në 22 shtete indiane
  • Publikuar nën një licencë CC BY 4.0, duke lejuar ripërdorim të gjerë me atribucion
  • Mbështetje për aplikacione kërkimore si unimodale ashtu edhe multimodale

Detyrat e Mbështetura dhe Rastet e Përdorimit

VAANI është dizajnuar për të shërbyer si një burim për një gamë të gjerë detyrash të përpunimit të fjalimit dhe gjuhës. Kërkuesit dhe zhvilluesit mund ta përdorin atë për trajnim dhe vlerësim të sistemeve të njohjes automatike të fjalimit (ASR), sintezës tekst në fjalim (TTS), identifikimin e folësve dhe modeleve të identifikimit të gjuhës. Grupi i të dhënave gjithashtu mbështet punën mbi përmirësimin e fjalimit dhe zhvillimin e modeleve të mëdha gjuhësore multimodale (LLMs). Gjerësia e mbulimit të gjuhëve e bën atë veçanërisht të rëndësishme për sistemet e benchmark që synojnë të funksionojnë në mjedisin e ndryshëm gjuhësor të Indisë.

Duke pasur parasysh përfshirjen e shumë gjuhëve dhe dialekteve me burime të ulta për të cilat ekzistojnë pak ose aspak të dhëna të mëparshme të fjalimit, VAANI ka një vlerë të veçantë për kërkuesit që përqendrohen në ndërtimin e teknologjive gjuhësore përfshirëse. Ajo ofron një themel për zhvillimin e mjeteve ASR dhe përpunimit të gjuhës natyrore që mund të shërbejnë për komunitetet të cilat historikisht kanë qenë të pranishme në zhvillimin e AI në masë.

Rëndësia për Teknologjinë e Gjuhës Indiane

Shkalla dhe diversiteti gjuhësor i VAANI e bëjnë atë një kontribut të rëndësishëm në fushën e kërkimit të fjalimit shumëgjuhësor, veçanërisht brenda kontekstit të gjuhëve të Azisë Jugore. Duke dokumentuar varietete të folura nga komunitetet tribale, rurale dhe rajonale përveç gjuhëve më të folura, grupi i të dhënave kap një dimension të trashëgimisë gjuhësore të Indisë që rrallë përfaqësohet në burimet kompjuterike. Licenca e saj e hapur lehtëson përdorimin nga institucionet akademike, organet qeveritare dhe kërkuesit e industrisë që punojnë drejt teknologjive të fjalimit më përfshirëse dhe përfaqësuese.

Raporto