Фон және әзірлеу

VAANI (бірнеше үнді тілінде «дауыс» немесе «сөйлеу» дегенді білдіреді) Үндістан ғылым институты (IISc) Бангалорда үнді тілдері үшін сөйлеу деректер ресурстарындағы елеулі алшақтықты шешуге бағытталған күш-жігердің аясында жасалды. Үндістанның тілдік ландшафты әлемдегі ең алуан түрлілердің бірі болып саналады: онда жүздеген тіл және мыңдаған диалект бар, алайда қолданыстағы сөйлеу деректер жиындарының басым бөлігі жақсы ресурспен қамтамасыз етілген тілдердің тар тобына ғана шоғырланған. VAANI осы жеткіліксіз қамтылған тілдік кеңістікте оқыту деректерінің қолжетімділігін арттыру үшін елдің географиялық және тілдік тұрғыдан әртүрлі аймақтарында ауқымды далалық деректер жинауды жүргізу арқылы әзірленді.

Деректер шамамен 110 000 сөйлеушіден жиналды және 22 үнді штатындағы 120 ауданға таралды. Бұл бақыланатын студиялық жазбаларға сүйенбей, шынайы аймақтық және диалекттік айырмашылықтарды қамтуға бағытталған саналы әрекетті көрсетеді. Деректер жиыны 86 тіл мен диалектті қамтиды: хинди, тамил, телугу, бенгал, каннада және малаялам сияқты негізгі жоспарланған тілдерден бастап, гондӣ, сантали, курух, ванчо және тенйидие сияқты көптеген аймақтық түрлер мен тайпалық тілдерге дейін, сондай-ақ тағы көптеген басқа тілдерді қамтиды.

Деректер жиынының құрамы және негізгі ерекшеліктері

VAANI жалпы алғанда шамамен 21 500 сағат аудионы қамтиды, бұл оны үнді тілдеріне бағытталған ең ірі көптілді сөйлеу корпустарының біріне айналдырады. Оның ішінде 835 сағат транскрипцияланған, яғни жинақтың бір бөлігі үшін шынайы мәтіндік аннотациялар (ground-truth) ұсынылған. Деректер жиыны сондай-ақ мультимодальды элементтерді қамтиды, бұл оны дәстүрлі сөйлеу тапсырмаларынан тыс қолдануға мүмкіндік береді.

Деректер жиынының негізгі сипаттамалары:

86 тіл мен диалектті қамту, соның ішінде көптеген ресурсы аз және тайпалық түрлер
Әртүрлі географиялық және демографиялық ортадан шамамен 110 000 сөйлеушінің үлесі
21 500 сағатқа жуық жалпы аудио және 835 сағат транскрипцияланған сөйлеу
22 үнді штатындағы 120 аудан бойынша далалық жазбалар
CC BY 4.0 лицензиясымен шығарылған, атрибуция арқылы кең ауқымды қайта пайдалануға мүмкіндік береді
Бірмодальды да, мультимодальды зерттеу қолданбаларына да қолдау

Қолдау көрсетілетін тапсырмалар және қолдану жағдайлары

VAANI сөйлеу мен тілді өңдеудің кең ауқымды тапсырмалары үшін ресурс ретінде қызмет етуге арналған. Зерттеушілер мен әзірлеушілер оны автоматты сөйлеуді тану (ASR) жүйелерін оқыту және бағалау, мәтіннен сөйлеуге (TTS) синтездеу, сөйлеушіні сәйкестендіру және тілді анықтау модельдері үшін қолдана алады. Деректер жиыны сөйлеуді жақсарту бойынша жұмыстарды және мультимодальды үлкен тілдік модельдерді (LLM) әзірлеуді де қолдайды. Тілдердің қамтылу ауқымы оны Үндістанның тілдік тұрғыдан әртүрлі ортасында жұмыс істеуге арналған жүйелерді эталондау үшін әсіресе өзекті етеді.

Алдыңғы сөйлеу деректері аз немесе мүлде жоқ көптеген ресурсы аз тілдер мен диалекттердің енгізілуіне байланысты, VAANI инклюзивті тіл технологияларын құруға бағытталған зерттеушілер үшін ерекше құнды. Ол тарихи тұрғыда негізгі AI әзірлемелерінде болмаған тілдер сөйлейтін қауымдастықтарға қызмет ете алатын ASR және табиғи тілді өңдеу құралдарын әзірлеуге негіз береді.

Үнді тіл технологиясы үшін маңыздылығы

VAANI-ның ауқымы мен тілдік әртүрлілігі оны көптілді сөйлеу зерттеулері саласындағы, әсіресе Оңтүстік Азия тілдері контекстінде, елеулі үлес ретінде көрсетеді. Деректер жиыны тайпалық, ауылдық және аймақтық қауымдастықтардан алынған сөйлеу түрлерін кеңірек қолданылатын тілдермен қатар құжаттай отырып, есептеуіш ресурстарда сирек ұсынылатын Үндістанның тілдік мұрасының бір қырын қамтиды. Оның ашық лицензиясы академиялық мекемелерге, мемлекеттік органдарға және инклюзивті әрі өкілдік сөйлеу технологияларын дамытуға ұмтылған өнеркәсіп зерттеушілеріне пайдалануды жеңілдетеді.

VAANI

Санаттар

Тақырыптар

Фон және әзірлеу

Деректер жиынының құрамы және негізгі ерекшеліктері

Қолдау көрсетілетін тапсырмалар және қолдану жағдайлары

Үнді тіл технологиясы үшін маңыздылығы