Kateqoriyalar
Mövzular
VAANI, Bangalore şəhərindəki Indian Institute of Science (IISc) tərəfindən hazırlanmış iri miqyaslı çoxdilli nitq verilənlər toplusudur və Hindistanın 22 ştatında yerləşən 120 rayondan təxminən 110.000 danışandan toplanmış təxminən 21.500 saatlıq audio materialı əhatə edir. O, Hindistan boyunca danışılan 86 dil və dialekti, o cümlədən əsas rəsmi dilləri, eləcə də çoxsaylı regional və qəbilə müxtəlifliklərini əhatə edir və 835 saat transkripsiya olunmuş nitq təqdim edir.
Verilənlər toplusu avtomatik nitq tanınması, mətndən nitq sintezi, danışan identifikasiyası, dil identifikasiyası, nitqin yaxşılaşdırılması və multimodal dil modeli hazırlanması da daxil olmaqla müxtəlif nitq və dil tapşırıqlarını dəstəkləmək üçün nəzərdə tutulub. CC BY 4.0 lisenziyası ilə yayımlanan bu toplu, ilk növbədə AI sistemlərinin öyrədilməsi və müqayisəli qiymətləndirilməsi üçün nəzərdə tutulur və xüsusilə az resurslu və kifayət qədər təmsil olunmayan Hindistan dilləri üzərində çalışan tədqiqatçılar və tərtibatçılar üçün xüsusi əhəmiyyət daşıyır.
Arxa plan və inkişaf
VAANI (bir neçə Hind dilində “səs” və ya “nitq” mənasını verir) Hind dilləri üçün nitq məlumatı resurslarındakı ciddi boşluğu aradan qaldırmaq məqsədilə Bangalore şəhərindəki Indian Institute of Science (IISc) tərəfindən yaradılmışdır. Hindistanın dil mənzərəsi dünyada ən müxtəlif olanlardan biridir; yüzlərlə dili və minlərlə dialekti əhatə edir, lakin mövcud nitq verilənlər toplusunun böyük əksəriyyəti yaxşı resurslaşdırılmış dillərin dar bir qrupuna yönəlir. VAANI, ölkənin coğrafi və dil baxımından müxtəlif bölgələrində genişmiqyaslı sahə məlumatı toplanması aparmaqla, kifayət qədər xidmət göstərilməyən bu dil məkanı üçün təlim məlumatlarının əlçatanlığını genişləndirmək məqsədilə hazırlanmışdır.
Məlumatlar Hindistanın 22 ştatında yerləşən 120 rayona yayılmış təxminən 110.000 danışandan toplanmışdır ki, bu da nəzarət olunan studiya yazılarına güvənməkdənsə, həqiqi regional və dialekt fərqliliyini əks etdirmək üçün məqsədli bir səyi göstərir. Verilənlər toplusu Hindi, Tamil, Telugu, Bengali, Kannada və Malayalam kimi əsas planlaşdırılmış dillərdən tutmuş Gondi, Santali, Kurukh, Wancho və Tenyidie daxil olmaqla çoxsaylı regional variantlara və qəbilə dillərinə qədər uzanan 86 dil və dialekti əhatə edir.
Verilənlər toplusunun tərkibi və əsas xüsusiyyətləri
VAANI ümumilikdə təxminən 21.500 saatlıq audio materialdan ibarətdir və bu, onu Hind dillərinə yönəlmiş ən böyük çoxdilli nitq korpuslarından birinə çevirir. Bunun 835 saatı transkripsiya edilmişdir və bu da kolleksiyanın bir hissəsi üçün əsas həqiqət mətn annotasiyalarını təmin edir. Verilənlər toplusu həmçinin multimodal elementləri də özündə birləşdirir ki, bu da onu ənənəvi nitq tapşırıqlarından kənar istifadə üçün uyğun edir.
Verilənlər toplusunun əsas xüsusiyyətlərinə aşağıdakılar daxildir:
- Bir çox az resurslu və qəbilə variantları daxil olmaqla 86 dil və dialektin əhatə olunması
- Müxtəlif coğrafi və demoqrafik mühitlərdən təxminən 110.000 danışanın töhfələri
- Ümumilikdə 21.500 saat audio və 835 saat transkripsiya edilmiş nitq
- Hindistanın 22 ştatında 120 rayonu əhatə edən sahə yazıları
- CC BY 4.0 lisenziyası altında yayımlanıb, istinad göstərilməklə geniş təkrar istifadəyə icazə verir
- Həm unimodal, həm də multimodal tədqiqat tətbiqlərinə dəstək
Dəstəklənən tapşırıqlar və istifadə halları
VAANI geniş çeşidli nitq və dil emalı tapşırıqları üçün resurs kimi xidmət etmək məqsədilə hazırlanmışdır. Tədqiqatçılar və tərtibatçılar ondan avtomatik nitq tanıma (ASR) sistemlərinin, mətnin nitqə çevrilməsi (TTS) sintezi, danışanın identifikasiyası və dil identifikasiyası modellərinin öyrədilməsi və qiymətləndirilməsi üçün istifadə edə bilərlər. Verilənlər toplusu həmçinin nitqin yaxşılaşdırılması və multimodal böyük dil modellərinin (LLMs) hazırlanması üzrə işləri də dəstəkləyir. Dilləri əhatə etmə genişliyi onu xüsusilə Hindistanın müxtəlif dil mühitində fəaliyyət göstərməsi nəzərdə tutulan sistemlərin müqayisəli qiymətləndirilməsi üçün uyğun edir.
Əvvəllər çox az və ya ümumiyyətlə heç bir nitq məlumatı mövcud olmayan bir çox az resurslu dil və dialektin daxil edildiyini nəzərə alsaq, VAANI inklüziv dil texnologiyalarının qurulmasına yönəlmiş tədqiqatçılar üçün xüsusi dəyərə malikdir. O, tarixən əsas AI inkişafında təmsil olunmamış dillərdə danışan icmalara xidmət göstərə biləcək ASR və təbii dil emalı alətlərinin hazırlanması üçün əsas yaradır.
Hind dili texnologiyası üçün əhəmiyyəti
VAANI-nin miqyası və dil müxtəlifliyi onu çoxdilli nitq tədqiqatı sahəsinə, xüsusilə də Cənubi Asiya dilləri kontekstində, diqqətəlayiq töhfəyə çevirir. Verilənlər toplusu daha geniş yayılmış dillərlə yanaşı qəbilə, kənd və regional icmaların danışıq variantlarını sənədləşdirməklə, Hindistanın hesablama resurslarında nadir hallarda təmsil olunan dil irsinin bir ölçüsünü əks etdirir. Onun açıq lisenziyası daha inklüziv və daha təmsilçi nitq texnologiyalarına doğru çalışan akademik qurumlar, dövlət orqanları və sənaye tədqiqatçıları tərəfindən istifadəsini asanlaşdırır.