Name: VAANI
Creator: Indian Institute of Science
License: https://creativecommons.org/licenses/by/4.0/

Háttér és fejlesztés

A VAANI-t (amelynek jelentése több indiai nyelvben „hang” vagy „beszéd”) a bangalore-i Indian Institute of Science (IISc) hozta létre annak az erőfeszítésnek a részeként, amely az indiai nyelvekhez kapcsolódó beszédadat-erőforrások jelentős hiányának kezelésére irányult. India nyelvi környezete a világ egyik legsokszínűbbje, több száz nyelvet és több ezer nyelvjárást foglal magában, mégis a meglévő beszédadatkészletek többsége a jól ellátott nyelvek szűk körére összpontosít. A VAANI-t azért fejlesztették ki, hogy bővítse a tanítóadatok elérhetőségét ebben az alulszolgált nyelvi térben, nagyszabású terepi adatgyűjtést végezve az ország földrajzilag és nyelvileg sokszínű régióiban.

Az adatokat körülbelül 110 000 beszélőtől gyűjtötték össze, akik 22 indiai állam 120 körzetében élnek, ami tudatos törekvést tükröz arra, hogy a valódi regionális és nyelvjárási változatosságot ragadják meg, ahelyett hogy ellenőrzött stúdiófelvételekre támaszkodnának. Az adatállomány 86 nyelvet és nyelvjárást fed le, a főbb hivatalosan elismert nyelvektől, mint a Hindi, Tamil, Telugu, Bengali, Kannada és Malayalam, számos regionális változatig és törzsi nyelvig, köztük a Gondi, Santali, Kurukh, Wancho és Tenyidie, valamint sok más nyelv.

Az adatállomány összetétele és fő jellemzői

A VAANI összesen körülbelül 21 500 órányi hanganyagot tartalmaz, ezzel az indiai nyelvekre összpontosító egyik legnagyobb többnyelvű beszédkorpusz. Ebből 835 órát leiratoztak, így a gyűjtemény egy részhalmazához hiteles szöveges annotációk állnak rendelkezésre. Az adatállomány multimodális elemeket is tartalmaz, ami lehetővé teszi a hagyományos beszédfeladatokon túli felhasználását is.

Az adatállomány fő jellemzői:

86 nyelv és nyelvjárás lefedése, köztük számos alacsony erőforrású és törzsi változat
Körülbelül 110 000 beszélő hozzájárulása változatos földrajzi és demográfiai háttérrel
21 500 óra teljes hanganyag, ebből 835 óra leiratozott beszéd
Terepi felvételek 120 körzetből, 22 indiai államban
CC BY 4.0 licenc alatt került kiadásra, amely széles körű újrafelhasználást tesz lehetővé forrásmegjelöléssel
Támogatás mind unimodális, mind multimodális kutatási alkalmazásokhoz

Támogatott feladatok és felhasználási esetek

A VAANI-t úgy tervezték, hogy az beszéd- és nyelvfeldolgozási feladatok széles köréhez szolgáljon erőforrásként. A kutatók és fejlesztők használhatják automatikus beszédfelismerő (ASR) rendszerek, szövegfelolvasó (TTS) szintézis, beszélőazonosítási és nyelvazonosítási modellek tanítására és értékelésére. Az adatállomány támogatja a beszédjavítással kapcsolatos munkát és a multimodális nagy nyelvi modellek (LLMs) fejlesztését is. Széles nyelvi lefedettsége különösen relevánssá teszi olyan rendszerek teljesítményének összehasonlító értékelésére, amelyeket India sokszínű nyelvi környezetében való működésre szánnak.

Tekintettel arra, hogy számos olyan alacsony erőforrású nyelvet és nyelvjárást is tartalmaz, amelyekhez korábban alig vagy egyáltalán nem állt rendelkezésre beszédadat, a VAANI különösen értékes az inkluzív nyelvi technológiák fejlesztésére összpontosító kutatók számára. Alapot biztosít olyan ASR- és természetesnyelv-feldolgozó eszközök fejlesztéséhez, amelyek olyan közösségeket szolgálhatnak, amelyek nyelvei történelmileg hiányoztak a mainstream AI-fejlesztésből.

Jelentősége az indiai nyelvtechnológia számára

A VAANI mérete és nyelvi sokszínűsége figyelemre méltó hozzájárulássá teszi a többnyelvű beszédkutatás területén, különösen a dél-ázsiai nyelvek kontextusában. Azáltal, hogy a szélesebb körben beszélt nyelvek mellett törzsi, vidéki és regionális közösségek beszélt változatait is dokumentálja, az adatállomány India nyelvi örökségének egy olyan dimenzióját ragadja meg, amely ritkán jelenik meg számítógépes erőforrásokban. Nyílt licence megkönnyíti a felhasználását olyan akadémiai intézmények, kormányzati szervek és ipari kutatók számára, akik befogadóbb és reprezentatívabb beszédtechnológiák fejlesztésén dolgoznak.

VAANI

Kategóriák

Témák

Háttér és fejlesztés

Az adatállomány összetétele és fő jellemzői

Támogatott feladatok és felhasználási esetek

Jelentősége az indiai nyelvtechnológia számára