21 500 hours CC-BY 4.0 Training Minden nyelv

Témák

voice audionlp

A VAANI egy nagyszabású, többnyelvű beszédadatkészlet, amelyet az Indian Institute of Science (IISc), Bangalore fejlesztett ki. Körülbelül 21 500 órányi hanganyagot tartalmaz, amelyet mintegy 110 000 beszélőtől gyűjtöttek össze 120 körzetből, India 22 államában. India-szerte beszélt 86 nyelvet és nyelvjárást fed le, beleértve a főbb hivatalosan elismert nyelveket, valamint számos regionális és törzsi változatot is, továbbá 835 órányi átírt beszédet tartalmaz.

Az adatkészletet úgy tervezték, hogy a beszéd- és nyelvfeldolgozási feladatok széles körét támogassa, beleértve az automatikus beszédfelismerést, a szövegfelolvasó szintézist, a beszélőazonosítást, a nyelvazonosítást, a beszédjavítást és a multimodális nyelvi modellek fejlesztését. CC BY 4.0 licenc alatt tették közzé, és elsődlegesen AI-rendszerek tanítására és teljesítményük összehasonlító értékelésére szolgál, különös jelentőséggel az alacsony erőforrású és alulreprezentált indiai nyelveken dolgozó kutatók és fejlesztők számára.

Háttér és fejlesztés

A VAANI-t (amelynek jelentése több indiai nyelvben „hang” vagy „beszéd”) a bangalore-i Indian Institute of Science (IISc) hozta létre annak az erőfeszítésnek a részeként, amely az indiai nyelvekhez kapcsolódó beszédadat-erőforrások jelentős hiányának kezelésére irányult. India nyelvi környezete a világ egyik legsokszínűbbje, több száz nyelvet és több ezer nyelvjárást foglal magában, mégis a meglévő beszédadatkészletek többsége a jól ellátott nyelvek szűk körére összpontosít. A VAANI-t azért fejlesztették ki, hogy bővítse a tanítóadatok elérhetőségét ebben az alulszolgált nyelvi térben, nagyszabású terepi adatgyűjtést végezve az ország földrajzilag és nyelvileg sokszínű régióiban.

Az adatokat körülbelül 110 000 beszélőtől gyűjtötték össze, akik 22 indiai állam 120 körzetében élnek, ami tudatos törekvést tükröz arra, hogy a valódi regionális és nyelvjárási változatosságot ragadják meg, ahelyett hogy ellenőrzött stúdiófelvételekre támaszkodnának. Az adatállomány 86 nyelvet és nyelvjárást fed le, a főbb hivatalosan elismert nyelvektől, mint a Hindi, Tamil, Telugu, Bengali, Kannada és Malayalam, számos regionális változatig és törzsi nyelvig, köztük a Gondi, Santali, Kurukh, Wancho és Tenyidie, valamint sok más nyelv.

Az adatállomány összetétele és fő jellemzői

A VAANI összesen körülbelül 21 500 órányi hanganyagot tartalmaz, ezzel az indiai nyelvekre összpontosító egyik legnagyobb többnyelvű beszédkorpusz. Ebből 835 órát leiratoztak, így a gyűjtemény egy részhalmazához hiteles szöveges annotációk állnak rendelkezésre. Az adatállomány multimodális elemeket is tartalmaz, ami lehetővé teszi a hagyományos beszédfeladatokon túli felhasználását is.

Az adatállomány fő jellemzői:

  • 86 nyelv és nyelvjárás lefedése, köztük számos alacsony erőforrású és törzsi változat
  • Körülbelül 110 000 beszélő hozzájárulása változatos földrajzi és demográfiai háttérrel
  • 21 500 óra teljes hanganyag, ebből 835 óra leiratozott beszéd
  • Terepi felvételek 120 körzetből, 22 indiai államban
  • CC BY 4.0 licenc alatt került kiadásra, amely széles körű újrafelhasználást tesz lehetővé forrásmegjelöléssel
  • Támogatás mind unimodális, mind multimodális kutatási alkalmazásokhoz

Támogatott feladatok és felhasználási esetek

A VAANI-t úgy tervezték, hogy az beszéd- és nyelvfeldolgozási feladatok széles köréhez szolgáljon erőforrásként. A kutatók és fejlesztők használhatják automatikus beszédfelismerő (ASR) rendszerek, szövegfelolvasó (TTS) szintézis, beszélőazonosítási és nyelvazonosítási modellek tanítására és értékelésére. Az adatállomány támogatja a beszédjavítással kapcsolatos munkát és a multimodális nagy nyelvi modellek (LLMs) fejlesztését is. Széles nyelvi lefedettsége különösen relevánssá teszi olyan rendszerek teljesítményének összehasonlító értékelésére, amelyeket India sokszínű nyelvi környezetében való működésre szánnak.

Tekintettel arra, hogy számos olyan alacsony erőforrású nyelvet és nyelvjárást is tartalmaz, amelyekhez korábban alig vagy egyáltalán nem állt rendelkezésre beszédadat, a VAANI különösen értékes az inkluzív nyelvi technológiák fejlesztésére összpontosító kutatók számára. Alapot biztosít olyan ASR- és természetesnyelv-feldolgozó eszközök fejlesztéséhez, amelyek olyan közösségeket szolgálhatnak, amelyek nyelvei történelmileg hiányoztak a mainstream AI-fejlesztésből.

Jelentősége az indiai nyelvtechnológia számára

A VAANI mérete és nyelvi sokszínűsége figyelemre méltó hozzájárulássá teszi a többnyelvű beszédkutatás területén, különösen a dél-ázsiai nyelvek kontextusában. Azáltal, hogy a szélesebb körben beszélt nyelvek mellett törzsi, vidéki és regionális közösségek beszélt változatait is dokumentálja, az adatállomány India nyelvi örökségének egy olyan dimenzióját ragadja meg, amely ritkán jelenik meg számítógépes erőforrásokban. Nyílt licence megkönnyíti a felhasználását olyan akadémiai intézmények, kormányzati szervek és ipari kutatók számára, akik befogadóbb és reprezentatívabb beszédtechnológiák fejlesztésén dolgoznak.

Jelentés