Կատեգորիաներ
Թեմաներ
VAANI-ը բազմալեզու խոսքի մեծածավալ տվյալների հավաքածու է, որը մշակվել է Հնդկաստանի գիտությունների ինստիտուտի (IISc) կողմից, Բանգալորում, և պարունակում է մոտ 21,500 ժամ աուդիո, հավաքված շուրջ 110,000 խոսնակներից 22 հնդկական նահանգներում 120 շրջանի ընթացքում: Այն ընդգրկում է 86 լեզու և բարբառ, որոնք խոսվում են Հնդկաստանում, ներառյալ հիմնական ժամանակացույցով նախատեսված լեզուները, ինչպես նաև բազմաթիվ տարածաշրջանային և ցեղային տարբերակներ, 835 ժամ տեքստային խոսքով:
Այս տվյալների հավաքածուն նախատեսված է աջակցելու խոսքի և լեզվի տարբեր առաջադրանքներին, այդ թվում՝ ավտոմատ խոսքի ճանաչում, տեքստից խոսքի սինթեզ, խոսնակների նույնականացում, լեզվի նույնականացում, խոսքի բարելավում և բազմամոդալ լեզվաբառարանների զարգացում: Այն թողարկվել է CC BY 4.0 լիցենզիայով և հիմնականում նախատեսված է արհեստական բանականության համակարգերի ուսուցման և չափման համար, հատկապես կարևոր է այն հետազոտողների և մշակողների համար, ովքեր աշխատում են ցածր ռեսուրսային և անտեսված հնդկական լեզուների վրա:
Հետաքրքրություն և զարգացման պատմություն
VAANI (որը նշանակում է "ձայն" կամ "խոսք" մի քանի հնդկական լեզուներում) ստեղծվել է Հնդկաստանի գիտության ինստիտուտի (IISc) կողմից Բանգալորում՝ հնդկական լեզուների խոսքի տվյալների ռեսուրսների զգալի բացը հաղթահարելու նպատակով: Հնդկաստանի լեզվաբառարանային տեսարանը աշխարհում ամենաբազմազաններից մեկն է, ընդգրկելով հարյուրավոր լեզուներ և հազարավոր բարբառներ, սակայն առկա խոսքային տվյալների մեծ մասը կենտրոնանում է լավ ռեսուրսավորված լեզուների նեղ շրջանակի վրա: VAANI մշակվել է այս անտեսված լեզվաբառարանային տարածության համար ուսուցման տվյալների հասանելիությունը ընդլայնելու նպատակով՝ երկրում աշխարհագրորեն և լեզվաբառարանային առումով բազմազան տարածքներում մեծածավալ դաշտային տվյալների հավաքագրում իրականացնելու միջոցով:
Տվյալները հավաքվել են մոտ 110,000 խոսողներից, որոնք տարածված են 22 հնդկական նահանգներում 120 շրջանի վրա, ինչը ցույց է տալիս իրական տարածաշրջանային և բարբառային տարբերությունները գրանցելու նպատակով իրականացված նպատակային ջանքերը, այլ ոչ թե վերահսկվող ստուդիական ձայնագրությունների վրա հենվելը: Տվյալների հավաքածուն ընդգրկում է 86 լեզու և բարբառ, սկսած հիմնական ժամանակացույցային լեզուներից, ինչպիսիք են հինդի, տամիլ, թելուգու, բենգալերեն, կաննադա և մալայալամ, մինչև բազմաթիվ տարածաշրջանային տարբերակներ և ցեղային լեզուներ, այդ թվում՝ Գոնդի, Սանտալի, Կուրուխ, Վանչո և Տենիիդի, և շատ ուրիշներ:
Տվյալների հավաքածուի կազմ և հիմնական առանձնահատկություններ
VAANI-ն կազմում է մոտ 21,500 ժամ աուդիո ընդհանուր առմամբ, ինչը դարձնում է այն հնդկական լեզուների վրա կենտրոնացած ամենամեծ բազմալեզու խոսքային հավաքածուներից մեկը: Այսից 835 ժամը տեքստային նշումներ են ստացել, տրամադրելով իրական տեքստային նշումներ հավաքածուի ենթախմբի համար: Տվյալների հավաքածուն նաև ներառում է բազմամոդալ տարրեր, ինչը թույլ է տալիս օգտագործել այն ավանդական խոսքային առաջադրանքներից դուրս:
Տվյալների հավաքածուի հիմնական առանձնահատկությունները ներառում են.
- 86 լեզուների և բարբառների ընդգրկում, այդ թվում՝ բազմաթիվ ցածր ռեսուրսային և ցեղային տարբերակներ
- Մոտ 110,000 խոսողներից ստացված ներդրումներ, որոնք ներկայացնում են աշխարհագրորեն և ժողովրդագրորեն բազմազան ֆոն
- 21,500 ընդհանուր ժամ աուդիո՝ 835 ժամ տեքստային խոսքով
- Դաշտային ձայնագրություններ, որոնք ընդգրկում են 120 շրջան 22 հնդկական նահանգներում
- Անցկացվել է CC BY 4.0 լիցենզիայով, որը թույլ է տալիս լայն վերօգտագործում՝ նշելով հեղինակությունը
- Աջակցություն ինչպես միամոդալ, այնպես էլ բազմամոդալ հետազոտական կիրառություններին
Նպատակներ և օգտագործման դեպքեր
VAANI-ն նախատեսված է ծառայելու որպես ռեսուրս խոսքի և լեզվի մշակման լայն տեսականի առաջադրանքների համար: Հետազոտողները և մշակողները կարող են օգտագործել այն ավտոմատ խոսքի ճանաչման (ASR) համակարգերի ուսուցման և գնահատման, տեքստից խոսք (TTS) սինթեզի, խոսողի նույնականացման և լեզվի նույնականացման մոդելների համար: Տվյալների հավաքածուն նաև աջակցում է խոսքի բարելավման և բազմամոդալ մեծ լեզվաբառարանային մոդելների (LLMs) զարգացման աշխատանքներին: Լեզվային ընդգրկման լայնությունը հատկապես կարևոր է Հնդկաստանի բազմազան լեզվաբառարանային միջավայրում գործող համակարգերի գնահատման համար:
Քանի որ ներառված են բազմաթիվ ցածր ռեսուրսային լեզուներ և բարբառներ, որոնց համար քիչ կամ ընդհանրապես խոսքային տվյալներ չեն գոյություն ունեցել, VAANI-ն հատուկ արժեք ունի հետազոտողների համար, ովքեր կենտրոնանում են ներառական լեզվաբառարանային տեխնոլոգիաներ կառուցելու վրա: Այն հիմք է տրամադրում ASR և բնական լեզվի մշակման գործիքների զարգացման համար, որոնք կարող են ծառայել այն համայնքներին, որոնց լեզուները պատմականորեն բացակայում են հիմնական AI զարգացման մեջ:
Significance for Indian Language Technology
VAANI-ի չափը և լեզվաբառարանային բազմազանությունը այն դարձնում են նշանավոր ներդրում բազմալեզու խոսքային հետազոտության ոլորտում, հատկապես Հարավային Ասիայի լեզուների համատեքստում: Տեսական տարբերակները փաստագրելով ցեղային, գյուղական և տարածաշրջանային համայնքներից, ինչպես նաև ավելի լայնորեն խոսվող լեզուներից, տվյալների հավաքածուն գրանցում է Հնդկաստանի լեզվաբառարանային ժառանգության մի չափում, որը հազվադեպ է ներկայացվում հաշվարկային ռեսուրսներում: Նրա բաց լիցենզիան հեշտացնում է օգտագործումը ակադեմիական հաստատությունների, պետական մարմինների և արդյունաբերության հետազոտողների կողմից, ովքեր աշխատում են ավելի ներառական և ներկայացնող խոսքային տեխնոլոգիաների ուղղությամբ: