21,500 hours CC-BY 4.0 Training Tout lang yo

Tèm

voice audionlp

VAANI se yon gwo done pou lapawòl miltileng devlope pa Indian Institute of Science (IISc), Bangalore, ki gen anviwon 21,500 èdtan odyo ki kolekte nan anviwon 110,000 moun k ap pale, atravè 120 distri nan 22 eta nan peyi Zend. Li kouvri 86 lang ak dyalèk yo pale atravè peyi Zend, tankou gwo lang ki sou lis lang pwograme yo, ansanm ak anpil varyete lokal ak varyete tribi, ak 835 èdtan lapawòl ki gen transkripsyon.

Yo fèt done sa yo pou sipòte plizyè travay lapawòl ak lang, tankou rekonesans otomatik lapawòl, sentèz tèks pou lapawòl, idantifikasyon moun k ap pale, idantifikasyon lang, amelyorasyon lapawòl, ak devlopman modèl lang miltimodal. Yo pibliye li anba lisans CC BY 4.0, epi li gen entansyon sitou pou fòmasyon ak evalyasyon (benchmarking) sistèm AI yo, ak yon enpòtans patikilye pou chèchè ak devlopè k ap travay sou lang Endyen ki gen resous ki pa anpil (low-resource) epi ki pa reprezante ase.

Fondasyon ak Devlopman

VAANI (ki vle di “vwa” oswa “diskou” nan plizyè lang Endyen) te kreye pa Indian Institute of Science (IISc) nan Bangalore, kòm pati nan yon efò pou adrese gwo diferans ki genyen nan resous done diskou pou lang Endyen yo. Peyizaj lengwistik peyi Zend lan se pami pi divèsifye nan mond lan, li gen ladan dè santèn de lang ak dè milye de dyalèk, men pifò nan done diskou ki egziste deja yo konsantre sou yon seri limite lang ki gen anpil resous. Yo te devlope VAANI pou elaji disponiblite done fòmasyon pou espas lengwistik ki pa byen sèvi sa a, lè yo fè gwo koleksyon done nan teren atravè rejyon ki divèsifye ni jewografikman ni lengwistikman nan peyi a.

Yo te kolekte done nan anviwon 110,000 moun k ap pale, ki gaye nan 120 distri nan 22 eta nan peyi Zend, sa ki montre yon efò planifye pou kaptire varyasyon reyèl nan rejyon yo ak nan dyalèk yo, olye pou yo konte sou anrejistreman ki kontwole nan estidyo. Done yo kouvri 86 lang ak dyalèk, soti nan gwo lang ki pwograme yo tankou Hindi, Tamil, Telugu, Bengali, Kannada, ak Malayalam, rive nan anpil varyete rejyonal ak lang tribi, tankou Gondi, Santali, Kurukh, Wancho, ak Tenyidie, pami anpil lòt.

Konpozisyon Done ak Karakteristik Kle

VAANI gen ladan anviwon 21,500 èdtan odyo an total, sa fè li youn nan pi gwo korpous diskou miltileng yo ki konsantre sou lang Endyen yo. Pami sa a, 835 èdtan te transkri, sa ki bay anotasyon tèks ki konfime verite a pou yon pati nan koleksyon an. Done yo enkòpore tou eleman multimodal, sa ki mete yo kanpe pou itilize pi lwen pase travay diskou konvansyonèl yo.

Karakteristik prensipal done yo genyen ladan yo:

  • Kouvèti 86 lang ak dyalèk, tankou anpil varyete ki gen ti resous ak varyete tribi
  • Kontribisyon anviwon 110,000 moun k ap pale, atravè diferan background jewografik ak demografik
  • 21,500 èdtan odyo an total, ak 835 èdtan diskou ki transkri
  • Anrejistreman nan teren ki kouvri 120 distri nan 22 eta nan peyi Zend
  • Libere anba lisans CC BY 4.0, ki pèmèt reitilizasyon lajè ak atribisyon
  • Sipò pou rechèch unimodal ak multimodal

Tach Sipòte ak Ka Itilizasyon

VAANI fèt pou sèvi kòm yon resous pou yon gran varyete tach pwosesis diskou ak lang. Chèchè ak devlopè yo ka itilize li pou fòmasyon ak evalyasyon sistèm rekonesans diskou otomatik (ASR), sentèz tèks-a-diskou (TTS), idantifikasyon moun k ap pale, ak modèl idantifikasyon lang. Done yo sipòte tou travay sou amelyorasyon diskou ak devlopman modèl gwo lang multimodal (LLM). Lajè kouvèti lang yo fè li patikilyèman enpòtan pou fè benchmark sistèm ki gen entansyon fonksyone nan anviwònman lengwistik divès peyi Zend.

Paske yo enkli anpil lang ak dyalèk ki gen ti resous, kote prèske pa gen oswa pa gen okenn done diskou anvan, VAANI gen yon valè espesyal pou chèchè ki konsantre sou bati teknoloji lang ki enklizif. Li bay yon baz pou devlope zouti ASR ak pwosesis lang natirèl ki ta ka sèvi kominote kote lang yo te istorikman absan nan devlopman AI ki pi laj.

Enpòtans pou Teknoloji Lang Endyen

Gwosè a ak divèsite lengwistik VAANI fè li yon kontribisyon remakab nan domèn rechèch diskou miltileng, sitou nan kontèks lang Sid Azi yo. Lè li dokimante varyete diskou ki soti nan kominote tribi, riral, ak rejyonal yo ansanm ak lang ki pi lajman pale, done yo kaptire yon dimansyon nan eritaj lengwistik peyi Zend ki raman reprezante nan resous konpitasyon. Lisans li ouvè a fasilite itilizasyon pa enstitisyon akademik, òganis gouvènman, ak chèchè endistri k ap travay pou teknoloji diskou ki pi enklizif e ki pi reprezantan.

Rapò