Հետաքրքրություն և զարգացման պատմություն

VAANI (որը նշանակում է "ձայն" կամ "խոսք" մի քանի հնդկական լեզուներում) ստեղծվել է Հնդկաստանի գիտության ինստիտուտի (IISc) կողմից Բանգալորում՝ հնդկական լեզուների խոսքի տվյալների ռեսուրսների զգալի բացը հաղթահարելու նպատակով: Հնդկաստանի լեզվաբառարանային տեսարանը աշխարհում ամենաբազմազաններից մեկն է, ընդգրկելով հարյուրավոր լեզուներ և հազարավոր բարբառներ, սակայն առկա խոսքային տվյալների մեծ մասը կենտրոնանում է լավ ռեսուրսավորված լեզուների նեղ շրջանակի վրա: VAANI մշակվել է այս անտեսված լեզվաբառարանային տարածության համար ուսուցման տվյալների հասանելիությունը ընդլայնելու նպատակով՝ երկրում աշխարհագրորեն և լեզվաբառարանային առումով բազմազան տարածքներում մեծածավալ դաշտային տվյալների հավաքագրում իրականացնելու միջոցով:

Տվյալները հավաքվել են մոտ 110,000 խոսողներից, որոնք տարածված են 22 հնդկական նահանգներում 120 շրջանի վրա, ինչը ցույց է տալիս իրական տարածաշրջանային և բարբառային տարբերությունները գրանցելու նպատակով իրականացված նպատակային ջանքերը, այլ ոչ թե վերահսկվող ստուդիական ձայնագրությունների վրա հենվելը: Տվյալների հավաքածուն ընդգրկում է 86 լեզու և բարբառ, սկսած հիմնական ժամանակացույցային լեզուներից, ինչպիսիք են հինդի, տամիլ, թելուգու, բենգալերեն, կաննադա և մալայալամ, մինչև բազմաթիվ տարածաշրջանային տարբերակներ և ցեղային լեզուներ, այդ թվում՝ Գոնդի, Սանտալի, Կուրուխ, Վանչո և Տենիիդի, և շատ ուրիշներ:

Տվյալների հավաքածուի կազմ և հիմնական առանձնահատկություններ

VAANI-ն կազմում է մոտ 21,500 ժամ աուդիո ընդհանուր առմամբ, ինչը դարձնում է այն հնդկական լեզուների վրա կենտրոնացած ամենամեծ բազմալեզու խոսքային հավաքածուներից մեկը: Այսից 835 ժամը տեքստային նշումներ են ստացել, տրամադրելով իրական տեքստային նշումներ հավաքածուի ենթախմբի համար: Տվյալների հավաքածուն նաև ներառում է բազմամոդալ տարրեր, ինչը թույլ է տալիս օգտագործել այն ավանդական խոսքային առաջադրանքներից դուրս:

Տվյալների հավաքածուի հիմնական առանձնահատկությունները ներառում են.

86 լեզուների և բարբառների ընդգրկում, այդ թվում՝ բազմաթիվ ցածր ռեսուրսային և ցեղային տարբերակներ
Մոտ 110,000 խոսողներից ստացված ներդրումներ, որոնք ներկայացնում են աշխարհագրորեն և ժողովրդագրորեն բազմազան ֆոն
21,500 ընդհանուր ժամ աուդիո՝ 835 ժամ տեքստային խոսքով
Դաշտային ձայնագրություններ, որոնք ընդգրկում են 120 շրջան 22 հնդկական նահանգներում
Անցկացվել է CC BY 4.0 լիցենզիայով, որը թույլ է տալիս լայն վերօգտագործում՝ նշելով հեղինակությունը
Աջակցություն ինչպես միամոդալ, այնպես էլ բազմամոդալ հետազոտական կիրառություններին

Նպատակներ և օգտագործման դեպքեր

VAANI-ն նախատեսված է ծառայելու որպես ռեսուրս խոսքի և լեզվի մշակման լայն տեսականի առաջադրանքների համար: Հետազոտողները և մշակողները կարող են օգտագործել այն ավտոմատ խոսքի ճանաչման (ASR) համակարգերի ուսուցման և գնահատման, տեքստից խոսք (TTS) սինթեզի, խոսողի նույնականացման և լեզվի նույնականացման մոդելների համար: Տվյալների հավաքածուն նաև աջակցում է խոսքի բարելավման և բազմամոդալ մեծ լեզվաբառարանային մոդելների (LLMs) զարգացման աշխատանքներին: Լեզվային ընդգրկման լայնությունը հատկապես կարևոր է Հնդկաստանի բազմազան լեզվաբառարանային միջավայրում գործող համակարգերի գնահատման համար:

Քանի որ ներառված են բազմաթիվ ցածր ռեսուրսային լեզուներ և բարբառներ, որոնց համար քիչ կամ ընդհանրապես խոսքային տվյալներ չեն գոյություն ունեցել, VAANI-ն հատուկ արժեք ունի հետազոտողների համար, ովքեր կենտրոնանում են ներառական լեզվաբառարանային տեխնոլոգիաներ կառուցելու վրա: Այն հիմք է տրամադրում ASR և բնական լեզվի մշակման գործիքների զարգացման համար, որոնք կարող են ծառայել այն համայնքներին, որոնց լեզուները պատմականորեն բացակայում են հիմնական AI զարգացման մեջ:

Significance for Indian Language Technology

VAANI-ի չափը և լեզվաբառարանային բազմազանությունը այն դարձնում են նշանավոր ներդրում բազմալեզու խոսքային հետազոտության ոլորտում, հատկապես Հարավային Ասիայի լեզուների համատեքստում: Տեսական տարբերակները փաստագրելով ցեղային, գյուղական և տարածաշրջանային համայնքներից, ինչպես նաև ավելի լայնորեն խոսվող լեզուներից, տվյալների հավաքածուն գրանցում է Հնդկաստանի լեզվաբառարանային ժառանգության մի չափում, որը հազվադեպ է ներկայացվում հաշվարկային ռեսուրսներում: Նրա բաց լիցենզիան հեշտացնում է օգտագործումը ակադեմիական հաստատությունների, պետական մարմինների և արդյունաբերության հետազոտողների կողմից, ովքեր աշխատում են ավելի ներառական և ներկայացնող խոսքային տեխնոլոգիաների ուղղությամբ:

VAANI

Կատեգորիաներ

Թեմաներ

Հետաքրքրություն և զարգացման պատմություն

Տվյալների հավաքածուի կազմ և հիմնական առանձնահատկություններ

Նպատակներ և օգտագործման դեպքեր

Significance for Indian Language Technology