21,500 hours CC-BY 4.0 Training Gbogbo àwọn èdè

Àwọn àkòrí

voice audionlp

VAANI jẹ ipilẹ̀ data ohun afetigbọ onírúurú èdè tó tóbi, tí Indian Institute of Science (IISc), Bangalore dá sílẹ̀, tí ó ní nǹkan bíi wákàtí 21,500 ohun afetigbọ tí a kó jọ láti ọ̀dọ̀ àwọn olùsọ̀rọ̀ tó fẹrẹ̀ tó 110,000 kọjá, ní àwọn ìpínlẹ̀ 120 láàárín àwọn ìpínlẹ̀ India 22. Ó bo èdè àti ìjìnlẹ̀ èdè 86 tí a ń sọ ní gbogbo India, pẹ̀lú àwọn èdè ìpinnu pàtàkì tó wà nínú ìtòlẹ́sẹẹsẹ ìjọba, àti púpọ̀lọpọ̀ àwọn ìyàtọ̀ agbègbè àti ti ẹ̀yà ìbílẹ̀, pẹ̀lú wákàtí 835 ti ọ̀rọ̀ tí a ti kọ sílẹ̀ (transcribed speech).

A ṣe apẹrẹ ipilẹ̀ data náà láti ṣe atilẹyin fún oríṣiríṣi iṣẹ́-ṣiṣe ohun afetigbọ àti èdè, títí kan ìdánimọ̀ ohun afetigbọ laifọwọyi (automatic speech recognition), ìdánilẹ́kọ ọrọ̀ sí ohun afetigbọ (text-to-speech synthesis), ìdánimọ̀ olùsọ̀rọ̀ (speaker identification), ìdánimọ̀ èdè (language identification), ìmúpadàbọ̀ ohun afetigbọ (speech enhancement), àti ìdàgbàsókè awoṣe èdè onímọ̀-ọ̀pọ̀ (multimodal language model development). Nípa ìtẹ̀jáde lábẹ́ ìwé-aṣẹ CC BY 4.0, a pinnu rẹ̀ ní pàtàkì fún ikẹ́kọ̀ àti ìdánwò ìfiwéra (benchmarking) fún àwọn ètò AI, pẹ̀lú ìbáṣepọ̀ pàtàkì fún àwọn onímọ̀-ìwádìí àti àwọn olùgbéejáde tí ń ṣiṣẹ́ lórí àwọn èdè India tí kò ní orísun tó pọ̀ (low-resource) àti tí a kò ṣàjọpín dáadáa (underrepresented).

Ìpilẹ̀ṣẹ̀ àti Ìdàgbàsókè

VAANI (èyí tí ó túmọ̀ sí “ohùn” tàbí “ìsọ̀rọ̀” nínú ọ̀pọ̀ èdè ilẹ̀ India) ni Ilé-ẹ̀kọ́ Imọ̀-ìjìnlẹ̀ India (IISc) dá sílẹ̀ ní Bangalore gẹ́gẹ́ bí apá kan nínú ìsapá láti dín ààlà ńlá kù nípa àwọn ohun èlò ìsọ̀rọ̀ (speech data resources) fún àwọn èdè India. Ayé èdè India jẹ́ ọ̀kan lára àwọn tó yàtọ̀ jù lọ ní ayé, tí ó ní ọ̀pọ̀ ọgọ́rọ̀ èdè àti ẹgbẹẹgbẹ̀rún ọ̀rọ̀-ìsọ̀rọ̀ (dialects), ṣùgbọ́n ọ̀pọ̀ jùlọ àwọn dataset ìsọ̀rọ̀ tí ó wà ní ìgbà yìí dojú kọ́ sí àpapọ̀ díẹ̀ nínú àwọn èdè tó ní ìtọ́jú dáadáa. A dá VAANI sílẹ̀ láti mú kí ìwàláàyè data ìkọ́ni pọ̀ sí i nínú ààyè èdè tí a kò tíì dáa tó, nípa ṣíṣe ìkópa data pápá ní ìwọ̀n ńlá kọjá oríṣìíríṣìí ẹkùn tí ó yàtọ̀ ní ilẹ̀-àyé àti ní èdè.

A kó data jọ láti ọ̀nà tó fẹrẹ̀ tó 110,000 àwọn olùsọ̀rọ̀ tí a tàn ka káàkiri àwọn agbegbe ìjọba (districts) 120 ní orílẹ̀-èdè India 22, tí ó fi hàn pé a ṣe ìsapá pẹ̀lú ìpinnu láti gba ìyàtọ̀ gidi ní ẹkùn àti ní dialects, kì í ṣe kí a gbára lé àwọn ìgbasilẹ́ ilé ìṣeré tí a ṣètò. Dataset náà bo èdè àti dialects 86, láti inú àwọn èdè tó gbajúgbajà gẹ́gẹ́ bí Hindi, Tamil, Telugu, Bengali, Kannada, àti Malayalam, títí dé ọ̀pọ̀ ìyàtọ̀ ẹkùn àti àwọn èdè ẹ̀yà (tribal languages) pẹ̀lú bí Gondi, Santali, Kurukh, Wancho, àti Tenyidie, láàrín ọ̀pọ̀ míì.

Ìtòlẹ́sẹẹsẹ Dataset àti Àwọn Ẹ̀ka pàtàkì

VAANI ní ìwọ̀n tó fẹrẹ̀ tó wákàtí 21,500 ti ohun afetí (audio) ní apapọ, tí ó jẹ́ kí ó jẹ́ ọ̀kan lára àwọn corpora ìsọ̀rọ̀ ọ̀pọ̀ èdè tó tóbi jù lọ tí ó dojú kọ́ sí àwọn èdè India. Nínú èyí, wákàtí 835 ni a ti kọ sílẹ̀ (transcribed), tí ó ń pèsè ìtẹ̀síwájú ọrọ̀ gidi (ground-truth text annotations) fún apá kan nínú ìkójọpọ̀ náà. Dataset náà tún ń kó àwọn eroja multimodal (ọ̀pọ̀ ọ̀nà ìmúlò) jọ, tí ó ń mú kí ó lè wúlò ju àwọn iṣẹ́ ìsọ̀rọ̀ àtọwọ́dá (conventional speech tasks) lọ.

Àwọn ànímọ́ pàtàkì ti dataset náà ni:

  • Ìbòjú fún èdè àti dialects 86, pẹ̀lú ọ̀pọ̀ ìyàtọ̀ tí kò ní orísun tó pọ̀ (low-resource) àti àwọn èdè ẹ̀yà
  • Ìpèsè láti ọ̀nà tó fẹrẹ̀ tó 110,000 àwọn olùsọ̀rọ̀ kọjá oríṣìíríṣìí ilẹ̀-àyé àti ìpò ènìyàn (demographic backgrounds)
  • Wákàtí 21,500 ohun afetí ní apapọ pẹ̀lú wákàtí 835 ti ìsọ̀rọ̀ tí a ti kọ sílẹ̀
  • Ìgbasilẹ́ pápá tí ó kọjá àwọn districts 120 ní orílẹ̀-èdè India 22
  • Tu jáde lábẹ́ ìwé-aṣẹ CC BY 4.0, tí ó ń gba ìlò pípò pẹ̀lú ìtọ́ka (attribution)
  • Ìtìlẹ́yìn fún ìwádìí unimodal àti multimodal mejeeji

Àwọn Iṣẹ́ Tí A Ṣe Atilẹ́yin àti Àwọn Ìlò tí ó yẹ

VAANI jẹ́ apẹrẹ láti ṣiṣẹ́ gẹ́gẹ́ bí ohun èlò fún ọ̀pọ̀ irú iṣẹ́ ìsọ̀rọ̀ àti ìmúlò ìtẹ̀síwájú èdè. Àwọn olùwádìí àti àwọn olùdásilẹ̀ lè lo ó fún ìkọ́ni àti ìdánwò àwọn ètò ìdánimọ̀ ìsọ̀rọ̀ laifọwọyi (ASR), ìṣàkóso ìsọ̀rọ̀ sí ọrọ̀ (text-to-speech, TTS synthesis), ìdánimọ̀ ẹni tó ń sọ̀rọ̀ (speaker identification), àti àwọn àpẹẹrẹ ìdánimọ̀ èdè (language identification models). Dataset náà tún ń ṣe atilẹyin fún iṣẹ́ lórí ìmúpọ̀ ìsọ̀rọ̀ (speech enhancement) àti ìdàgbàsókè àwọn awoṣe èdè ńlá multimodal (LLMs). Ìgbòkègbodò rẹ̀ ní ìbòjú èdè púpọ̀ mú kí ó ṣe pàtàkì gan-an fún ìdánwò ìfiwéra (benchmarking) àwọn ètò tí a pinnu láti ṣiṣẹ́ ní àyíká èdè onírúurú India.

Nítorí ìbáwọlé àwọn èdè àti dialects púpọ̀ tí kò ní orísun tó pọ̀ (low-resource) tí kò sí tàbí tí ó ṣọwọn ní data ìsọ̀rọ̀ tẹ́lẹ̀, VAANI ní iye pàtàkì pàápàá fún àwọn olùwádìí tí ń dojú kọ́ sí ìdàgbàsókè àwọn imọ̀ ẹrọ èdè tó dájú fún gbogbo ènìyàn (inclusive language technologies). Ó ń pèsè ìpìlẹ̀ fún ìdàgbàsókè àwọn irinṣẹ́ ASR àti ìmúlò ìtànkálẹ̀ èdè àdánidá (natural language processing tools) tí ó lè sin àwọn àwùjọ tí èdè wọn ti máa ń ṣe àìfarahàn ní ìdàgbàsókè AI tó wọ́pọ̀.

Ìjẹ́pàtàkì fún Ìmọ̀ ẹrọ Èdè India

Ìwọ̀n àti ìyàtọ̀ èdè tí VAANI ní mú kí ó jẹ́ ìpamọ́ tó ṣe pàtàkì sí pápá ìwádìí ìsọ̀rọ̀ ọ̀pọ̀ èdè (multilingual speech research), pàápàá jù lọ ní àyíká àwọn èdè Gúúsù Áṣíà. Nípa ṣàkọsílẹ̀ àwọn ìyàtọ̀ ìsọ̀rọ̀ láti ọ̀dọ̀ àwọn àwùjọ ẹ̀yà, àwọn abúlé, àti àwọn ẹkùn, pẹ̀lú àwọn èdè tí a ń sọ̀ sí i ní gbígbòòrò, dataset náà ń gba ìtòsí kan nínú ìní ìtàn èdè India tí a kò sábà fi hàn nínú àwọn ohun èlò ìṣirò. Ìwé-aṣẹ rẹ̀ tó ṣí (open license) ń rọrùn fún lílo láwọn ilé-ẹ̀kọ́, àwọn ilé iṣẹ́ ìjọba, àti àwọn olùwádìí láti inú ilé iṣẹ́ (industry researchers) tí ń ṣiṣẹ́ sí ìdàgbàsókè àwọn imọ̀ ẹrọ ìsọ̀rọ̀ tó dájú fún gbogbo ènìyàn àti tí ó ṣàpẹẹrẹ gidi.

Ìròyìn