21.500 hours CC-BY 4.0 Training Öll tungumál

Þemu

voice audionlp

VAANI er stórt fjöltyngt talgagnasafn sem var þróað af Indian Institute of Science (IISc), Bangalore, og inniheldur um það bil 21.500 klukkustundir af hljóði sem safnað var frá um 110.000 málhöfum í 120 héruðum í 22 indverskum ríkjum. Það nær yfir 86 tungumál og mállýskur sem töluð eru víðs vegar um Indland, þar á meðal helstu skráðu tungumálin sem og fjölmörg svæðisbundin og ættbálkatengd afbrigði, með 835 klukkustundum af umrituðu tali.

Gagnasafnið er hannað til að styðja við margvísleg verkefni á sviði tals og tungumáls, þar á meðal sjálfvirka talgreiningu, talgervingu úr texta, auðkenningu málhafa, tungumálaauðkenningu, endurbætur á tali og þróun fjölhátta tungumálalíkana. Það er gefið út undir CC BY 4.0 leyfi og er fyrst og fremst ætlað til þjálfunar og samanburðarmælinga á gervigreindarkerfum, með sérstakt gildi fyrir rannsakendur og forritara sem vinna með indversk tungumál sem hafa takmarkaðar auðlindir og eru lítt fulltrúuð.

Bakgrunnur og þróun

VAANI (sem merkir „rödd“ eða „tal“ á nokkrum indverskum tungumálum) var búið til af Indian Institute of Science (IISc) í Bangalore sem hluti af viðleitni til að bregðast við verulegum skorti á talgagnasöfnum fyrir indversk tungumál. Tungumálaumhverfi Indlands er meðal þess fjölbreyttasta í heiminum og nær yfir hundruð tungumála og þúsundir mállýskna, en þó beinist meirihluti fyrirliggjandi talgagnasafna að þröngu úrvali tungumála sem hafa þegar góð gagnasöfn. VAANI var þróað til að auka framboð þjálfunargagna fyrir þetta vanþjónaða tungumálasvið með umfangsmikilli vettvangssöfnun gagna á landfræðilega og málfræðilega fjölbreyttum svæðum landsins.

Gögnum var safnað frá um það bil 110.000 málhöfum dreifðum um 120 héruð í 22 indverskum ríkjum, sem endurspeglar markvissa viðleitni til að fanga raunverulegan svæðisbundinn og mállýskubundinn breytileika fremur en að reiða sig á stýrðar hljóðverupptökur. Gagnasafnið spannar 86 tungumál og mállýskur, allt frá helstu skráðum tungumálum á borð við Hindi, Tamil, Telugu, Bengali, Kannada og Malayalam til fjölmargra svæðisbundinna afbrigða og ættbálkatungumála, þar á meðal Gondi, Santali, Kurukh, Wancho og Tenyidie, auk margra annarra.

Samsetning gagnasafnsins og helstu einkenni

VAANI samanstendur af um það bil 21.500 klukkustundum af hljóði alls, sem gerir það að einu stærsta fjöltyngda talmálssafni sem beinist að indverskum tungumálum. Af þessu hafa 835 klukkustundir verið umritaðar, sem veitir textaskýringar með staðfestum rétti fyrir hluta safnsins. Gagnasafnið inniheldur einnig fjölhátta þætti, sem gerir það nýtilegt umfram hefðbundin verkefni á sviði talvinnslu.

Helstu einkenni gagnasafnsins eru meðal annars:

  • Yfirgripsmikil umfjöllun um 86 tungumál og mállýskur, þar á meðal mörg lágauðlindatungumál og ættbálkaafbrigði
  • Framlög frá um 110.000 málhöfum af ólíkum landfræðilegum og lýðfræðilegum bakgrunni
  • 21.500 klukkustundir af hljóði alls, þar af 835 klukkustundir af umrituðu tali
  • Vettvangsupptökur sem ná yfir 120 héruð í 22 indverskum ríkjum
  • Gefið út undir CC BY 4.0 leyfi, sem heimilar víðtæka endurnýtingu með tilvísun til höfundar
  • Stuðningur við bæði einhátta og fjölhátta rannsóknarverkefni

Studd verkefni og notkunartilvik

VAANI er hannað til að þjóna sem auðlind fyrir fjölbreytt úrval verkefna á sviði tal- og málvinnslu. Rannsakendur og forritarar geta notað það til að þjálfa og meta sjálfvirk talgreiningarkerfi (ASR), talgervingu úr texta (TTS), auðkenningu málhafa og líkön til tungumálagreiningar. Gagnasafnið styður einnig vinnu við bætingu tals og þróun fjölhátta stórra tungumálalíkana (LLMs). Víðtæk tungumálaumfjöllun þess gerir það sérstaklega mikilvægt fyrir samanburðarmat á kerfum sem ætlað er að starfa í fjölbreyttu tungumálaumhverfi Indlands.

Í ljósi þess að þar eru mörg lágauðlindatungumál og mállýskur sem lítil sem engin fyrri talgögn eru til fyrir, hefur VAANI sérstakt gildi fyrir rannsakendur sem leggja áherslu á að byggja upp inngildandi máltækni. Það leggur grunn að þróun ASR- og náttúrulegrar málvinnslutækja sem gætu þjónað samfélögum þar sem tungumál hafa sögulega verið fjarverandi í almennri þróun gervigreindar.

Mikilvægi fyrir indverska máltækni

Stærð og tungumálaleg fjölbreytni VAANI gera það að mikilvægu framlagi til sviðs fjöltyngdra talrannsókna, sérstaklega í samhengi suður-asískra tungumála. Með því að skrá töluð afbrigði frá ættbálka-, dreifbýlis- og svæðisbundnum samfélögum samhliða útbreiddari tungumálum fangar gagnasafnið vídd af tungumálaarfleifð Indlands sem sjaldan á sér fulltrúa í reiknilegum auðlindum. Opið leyfi þess auðveldar notkun af hálfu háskólastofnana, opinberra aðila og rannsakenda í iðnaði sem vinna að inngildandi og betur lýsandi taltækni.

Tilkynna