Санаттар
Тақырыптар
VAANI — Үндістанның Бангалор қаласындағы Үндістан ғылым институты (IISc) әзірлеген ауқымды көптілді сөйлеу деректер жиынтығы. Оның құрамында шамамен 21 500 сағат аудио бар, ол 22 үнді штатындағы 120 аудан бойынша шамамен 110 000 сөйлеушіден жиналған. Деректер жиынтығы Үндістанда қолданылатын 86 тіл мен диалектіні қамтиды: оған негізгі жоспарлы (scheduled) тілдермен қатар көптеген өңірлік және тайпалық нұсқалар да кіреді; сондай-ақ 835 сағат транскрипцияланған сөйлеу бар.
Деректер жиынтығы автоматты сөйлеуді тану, мәтіннен сөйлеуге синтездеу, сөйлеушіні сәйкестендіру, тілді анықтау, сөйлеуді жақсарту және мультимодальды тілдік модельдерді әзірлеу сияқты бірқатар сөйлеу және тіл тапсырмаларын қолдауға арналған. CC BY 4.0 лицензиясымен жарияланған ол ең алдымен AI жүйелерін оқыту және бенчмаркинг үшін көзделген; әсіресе ресурсы аз әрі жеткілікті дәрежеде ұсынылмаған үнді тілдерімен жұмыс істейтін зерттеушілер мен әзірлеушілер үшін маңызды.
Фон және әзірлеу
VAANI (бірнеше үнді тілінде «дауыс» немесе «сөйлеу» дегенді білдіреді) Үндістан ғылым институты (IISc) Бангалорда үнді тілдері үшін сөйлеу деректер ресурстарындағы елеулі алшақтықты шешуге бағытталған күш-жігердің аясында жасалды. Үндістанның тілдік ландшафты әлемдегі ең алуан түрлілердің бірі болып саналады: онда жүздеген тіл және мыңдаған диалект бар, алайда қолданыстағы сөйлеу деректер жиындарының басым бөлігі жақсы ресурспен қамтамасыз етілген тілдердің тар тобына ғана шоғырланған. VAANI осы жеткіліксіз қамтылған тілдік кеңістікте оқыту деректерінің қолжетімділігін арттыру үшін елдің географиялық және тілдік тұрғыдан әртүрлі аймақтарында ауқымды далалық деректер жинауды жүргізу арқылы әзірленді.
Деректер шамамен 110 000 сөйлеушіден жиналды және 22 үнді штатындағы 120 ауданға таралды. Бұл бақыланатын студиялық жазбаларға сүйенбей, шынайы аймақтық және диалекттік айырмашылықтарды қамтуға бағытталған саналы әрекетті көрсетеді. Деректер жиыны 86 тіл мен диалектті қамтиды: хинди, тамил, телугу, бенгал, каннада және малаялам сияқты негізгі жоспарланған тілдерден бастап, гондӣ, сантали, курух, ванчо және тенйидие сияқты көптеген аймақтық түрлер мен тайпалық тілдерге дейін, сондай-ақ тағы көптеген басқа тілдерді қамтиды.
Деректер жиынының құрамы және негізгі ерекшеліктері
VAANI жалпы алғанда шамамен 21 500 сағат аудионы қамтиды, бұл оны үнді тілдеріне бағытталған ең ірі көптілді сөйлеу корпустарының біріне айналдырады. Оның ішінде 835 сағат транскрипцияланған, яғни жинақтың бір бөлігі үшін шынайы мәтіндік аннотациялар (ground-truth) ұсынылған. Деректер жиыны сондай-ақ мультимодальды элементтерді қамтиды, бұл оны дәстүрлі сөйлеу тапсырмаларынан тыс қолдануға мүмкіндік береді.
Деректер жиынының негізгі сипаттамалары:
- 86 тіл мен диалектті қамту, соның ішінде көптеген ресурсы аз және тайпалық түрлер
- Әртүрлі географиялық және демографиялық ортадан шамамен 110 000 сөйлеушінің үлесі
- 21 500 сағатқа жуық жалпы аудио және 835 сағат транскрипцияланған сөйлеу
- 22 үнді штатындағы 120 аудан бойынша далалық жазбалар
- CC BY 4.0 лицензиясымен шығарылған, атрибуция арқылы кең ауқымды қайта пайдалануға мүмкіндік береді
- Бірмодальды да, мультимодальды зерттеу қолданбаларына да қолдау
Қолдау көрсетілетін тапсырмалар және қолдану жағдайлары
VAANI сөйлеу мен тілді өңдеудің кең ауқымды тапсырмалары үшін ресурс ретінде қызмет етуге арналған. Зерттеушілер мен әзірлеушілер оны автоматты сөйлеуді тану (ASR) жүйелерін оқыту және бағалау, мәтіннен сөйлеуге (TTS) синтездеу, сөйлеушіні сәйкестендіру және тілді анықтау модельдері үшін қолдана алады. Деректер жиыны сөйлеуді жақсарту бойынша жұмыстарды және мультимодальды үлкен тілдік модельдерді (LLM) әзірлеуді де қолдайды. Тілдердің қамтылу ауқымы оны Үндістанның тілдік тұрғыдан әртүрлі ортасында жұмыс істеуге арналған жүйелерді эталондау үшін әсіресе өзекті етеді.
Алдыңғы сөйлеу деректері аз немесе мүлде жоқ көптеген ресурсы аз тілдер мен диалекттердің енгізілуіне байланысты, VAANI инклюзивті тіл технологияларын құруға бағытталған зерттеушілер үшін ерекше құнды. Ол тарихи тұрғыда негізгі AI әзірлемелерінде болмаған тілдер сөйлейтін қауымдастықтарға қызмет ете алатын ASR және табиғи тілді өңдеу құралдарын әзірлеуге негіз береді.
Үнді тіл технологиясы үшін маңыздылығы
VAANI-ның ауқымы мен тілдік әртүрлілігі оны көптілді сөйлеу зерттеулері саласындағы, әсіресе Оңтүстік Азия тілдері контекстінде, елеулі үлес ретінде көрсетеді. Деректер жиыны тайпалық, ауылдық және аймақтық қауымдастықтардан алынған сөйлеу түрлерін кеңірек қолданылатын тілдермен қатар құжаттай отырып, есептеуіш ресурстарда сирек ұсынылатын Үндістанның тілдік мұрасының бір қырын қамтиды. Оның ашық лицензиясы академиялық мекемелерге, мемлекеттік органдарға және инклюзивті әрі өкілдік сөйлеу технологияларын дамытуға ұмтылған өнеркәсіп зерттеушілеріне пайдалануды жеңілдетеді.