Catagóirí
Téamaí
Is é VAANI tacar mór ilteangach guth atá forbartha ag Institiúid na hEolaíochta na hIndia (IISc), Bangalore, a chuireann thart ar 21,500 uair an chloig de guth ar fáil a bhailíodh ó thart ar 110,000 cainteoir ar fud 120 contae i 22 stát na hIndia. Clúdaíonn sé 86 teanga agus dialact a labhraítear ar fud na hIndia, lena n-áirítear teangacha sceidil móra chomh maith le go leor éagsúlachtaí réigiúnacha agus tribal, le 835 uair an chloig de guth atá trascríofa.
Tá an tacar sonraí deartha chun tacú le raon tascanna guth agus teanga, lena n-áirítear aithint guth uathoibríoch, sintéis téacs-go-guth, aithint cainteora, aithint teanga, feabhsú guth, agus forbairt múnla teanga ilmhódh. Scaoilte faoi cheadúnas CC BY 4.0, tá sé beartaithe go príomha le haghaidh traenála agus tomhas córais AI, le tábhacht shonrach do thaighdeoirí agus forbróirí atá ag obair ar theangacha Indiach íseal-acmhainne agus nach bhfuil ionadaíocht mhaith acu.
Cúlra agus Forbairt
VAANI (a chiallaíonn "guth" nó "cainte" i roinnt teangacha Indiacha) a cruthaíodh ag Institiúid na hEolaíochta Indiach (IISc) i Bangalore mar chuid de iarracht chun an bearna suntasach atá ann i gcruthanna sonraí cainte do theangacha Indiacha a chomhoibriú. Tá an tírdhreach teanga sa India i measc na n-áiteanna is ilchineálacha ar domhan, ag comhoibriú le céadta teangacha agus mílte dialachta, ach tá an chuid is mó de na sonraí cainte atá ann faoi láthair dírithe ar shraith dhíreach teangacha a bhfuil acmhainní maith acu. Forbraíodh VAANI chun an t-ardú a dhéanamh ar infhaighteacht sonraí traenála don spás teanga nach bhfuil freastal air tríd an mbailiúchán sonraí réimse mórscála a dhéanamh ar fud réigiún geografacha agus teanga éagsúla sa tír.
Bhailigh sonraí ó thart ar 110,000 cainteoir atá scaipthe ar 120 contae i 22 stát Indiach, ag léiriú iarracht shonrach chun éagsúlacht réigiúnach agus dialachtach a ghabháil seachas brath ar thaifeadtaí stiúideo rialaithe. Clúdaíonn an tacar sonraí 86 teanga agus dialacht, ag raon ó theangacha sceidil móra mar Hindi, Tamil, Telugu, Bengali, Kannada, agus Malayalam go dtí go leor éagsúlachtaí réigiúnacha agus teangacha treibheacha lena n-áirítear Gondi, Santali, Kurukh, Wancho, agus Tenyidie, i measc go leor eile.
Comhoibriú Tacar Sonraí agus Gnéithe Tábhachtacha
Comhcheanglaíonn VAANI thart ar 21,500 uair an chloig de guth ar fad, ag déanamh é ar cheann de na corpora cainte ilteangacha is mó atá dírithe ar theangacha Indiacha. De réir seo, tá 835 uair an chloig trascríofa, ag soláthar comhoiriúnachtaí téacs fíor do shraith de na bailiúcháin. Cuimsíonn an tacar sonraí freisin eilimintí ilmhódúil, ag cur in oiriúnacht é le húsáid lasmuigh de na tascanna cainte traidisiúnta.
Áiteanna tábhachtacha an tacar sonraí a áirítear:
- Clúdach de 86 teanga agus dialacht, lena n-áirítear go leor éagsúlachtaí íseal-acmhainne agus treibheacha
- Contributeoirí ó thart ar 110,000 cainteoir ó chúlraí geografacha agus daonra éagsúla
- 21,500 uair an chloig de guth ar fad le 835 uair an chloig de chaint trascríofa
- Taifeadtaí réimse a shíneann ar 120 contae i 22 stát Indiach
- Scaoilte faoi cheadúnas CC BY 4.0, ag ceadú athúsáid le creidiúnacht
- Tacaíocht do dhá iarratais taighde ilmhódúil agus unimhódúil
Tascanna Tacaíochta agus Cásanna Úsáide
Déantar VAANI a dhearadh mar acmhainn do raon leathan tascanna próiseála cainte agus teanga. Is féidir le taighdeoirí agus forbróirí é a úsáid chun córais aithint cainte uathoibríoch (ASR) a thraenáil agus a mheas, sintéis téacs-go-guth (TTS), aithint cainteora, agus samhlacha aithint teanga. Tacaíonn an tacar sonraí freisin le hobair ar fheabhsú cainte agus forbairt mhóidéal teanga ilmhódúil (LLMs). Déanann a raon clúdaigh teanga é a bheith go háirithe ábhartha do chóras benchmarking atá beartaithe chun oibriú ar fud timpeallacht teanga ilchineálach na hIndia.
Agus an iomlán de go leor teangacha agus dialachtaí íseal-acmhainne a áireamh nach bhfuil aon shonraí cainte roimhe seo ann, tá luach ar leith ag VAANI do thaighdeoirí atá dírithe ar theicneolaíochtaí teanga cuimsitheacha a thógáil. Soláthraíonn sé bunús do dhoiciméid ASR agus uirlisí próiseála teanga nádúrtha a d'fhéadfadh freastal ar phobail a theangacha a bhí go traidisiúnta as láthair ó fhorbairt AI praiticiúil.
Éifeachtúlacht do Theicneolaíocht Teanga Indiach
Déanann an scála agus an éagsúlacht teanga atá ag VAANI é a bheith ina chion suntasach sa réimse taighde cainte ilteangach, go háirithe laistigh de chomhthéacs na dteangacha de chuid na hÁise Theas. Trí éagsúlachtaí labhartha ó phobail treibheacha, tuaithe, agus réigiúnacha a dhoiciméadú in éineacht le teangacha a labhraítear go forleathan, ghabhann an tacar sonraí dimenzion de oidhreacht teanga na hIndia nach bhfuil ionadaíocht ann go minic i n-acmhainní ríomhaireachta. Éascaíonn a cheadúnas oscailte úsáid ag institiúidí acadúla, comhlachtaí rialtais, agus taighdeoirí tionscail atá ag obair i dtreo teicneolaíochtaí cainte níos cuimsithí agus ionadaíoch.