Name: VAANI
Creator: Indian Institute of Science
License: https://creativecommons.org/licenses/by/4.0/

Arka Plan ve Geliştirme

VAANI (birçok Hint dilinde “ses” veya “konuşma” anlamına gelir), Hindistan dilleri için konuşma verisi kaynaklarındaki önemli açığı gidermeye yönelik bir çabanın parçası olarak Bangalore’daki Indian Institute of Science (IISc) tarafından oluşturuldu. Hindistan’ın dilsel yapısı, yüzlerce dili ve binlerce lehçeyi kapsayarak dünyadaki en çeşitli yapılardan biridir; buna karşın mevcut konuşma veri kümelerinin büyük çoğunluğu, kaynak bakımından güçlü dar bir dil grubuna odaklanmaktadır. VAANI, ülkenin coğrafi ve dilsel açıdan çeşitli bölgelerinde geniş ölçekli saha verisi toplama çalışmaları yürüterek, yeterince hizmet almayan bu dilsel alan için eğitim verisinin erişilebilirliğini artırmak amacıyla geliştirildi.

Veriler, kontrollü stüdyo kayıtlarına dayanmak yerine gerçek bölgesel ve lehçesel çeşitliliği yakalamaya yönelik bilinçli bir çabayı yansıtacak şekilde, 22 Hint eyaletindeki 120 ilçeye yayılmış yaklaşık 110.000 konuşmacıdan toplandı. Veri kümesi, Hintçe, Tamilce, Telugu, Bengalce, Kannada ve Malayalam gibi başlıca planlanmış dillerden; Gondi, Santali, Kurukh, Wancho ve Tenyidie gibi çok sayıda bölgesel çeşit ve kabile diline kadar uzanan 86 dil ve lehçeyi kapsamaktadır.

Veri Kümesinin Bileşimi ve Temel Özellikleri

VAANI, toplamda yaklaşık 21.500 saatlik ses verisi içermektedir; bu da onu Hint dillerine odaklanan en büyük çok dilli konuşma derlemlerinden biri yapmaktadır. Bunun 835 saati çözümlenmiş olup, koleksiyonun bir alt kümesi için gerçek metin açıklamaları sağlamaktadır. Veri kümesi ayrıca çok modlu unsurlar da içererek, geleneksel konuşma görevlerinin ötesinde kullanım için uygun hale gelmektedir.

Veri kümesinin temel özellikleri şunlardır:

Düşük kaynaklı ve kabile dilleri de dahil olmak üzere 86 dil ve lehçeyi kapsaması
Çeşitli coğrafi ve demografik geçmişlerden yaklaşık 110.000 konuşmacının katkıları
Toplam 21.500 saat ses verisi ve bunun içinde 835 saat çözümlenmiş konuşma
22 Hint eyaletindeki 120 ilçeyi kapsayan saha kayıtları
CC BY 4.0 lisansı altında yayımlanmış olması; bu da atıf verilmesi koşuluyla geniş çaplı yeniden kullanıma izin verir
Hem tek modlu hem de çok modlu araştırma uygulamalarını desteklemesi

Desteklenen Görevler ve Kullanım Alanları

VAANI, çok çeşitli konuşma ve dil işleme görevleri için bir kaynak olarak hizmet vermek üzere tasarlanmıştır. Araştırmacılar ve geliştiriciler bunu otomatik konuşma tanıma (ASR) sistemlerini, metinden konuşmaya (TTS) sentezini, konuşmacı tanımlama ve dil tanımlama modellerini eğitmek ve değerlendirmek için kullanabilir. Veri kümesi ayrıca konuşma iyileştirme çalışmaları ile çok modlu büyük dil modellerinin (LLM’ler) geliştirilmesini de desteklemektedir. Geniş dil kapsamı, onu özellikle Hindistan’ın çeşitli dil ortamında çalışması amaçlanan sistemlerin kıyaslanması açısından önemli kılmaktadır.

Daha önce çok az ya da hiç konuşma verisi bulunmayan birçok düşük kaynaklı dil ve lehçenin dahil edilmesi göz önüne alındığında, VAANI kapsayıcı dil teknolojileri geliştirmeye odaklanan araştırmacılar için özellikle değerlidir. Tarihsel olarak ana akım yapay zekâ geliştirme süreçlerinde yer almamış topluluklara hizmet edebilecek ASR ve doğal dil işleme araçlarının geliştirilmesi için bir temel sunmaktadır.

Hint Dil Teknolojisi Açısından Önemi

VAANI’nin ölçeği ve dilsel çeşitliliği, özellikle Güney Asya dilleri bağlamında, onu çok dilli konuşma araştırmaları alanına kayda değer bir katkı haline getirmektedir. Veri kümesi, daha yaygın konuşulan dillerin yanı sıra kabile, kırsal ve bölgesel toplulukların konuşma çeşitlerini de belgeleyerek, Hindistan’ın dil mirasının hesaplamalı kaynaklarda nadiren temsil edilen bir boyutunu yakalamaktadır. Açık lisansı, daha kapsayıcı ve daha temsil gücü yüksek konuşma teknolojileri geliştirmeye çalışan akademik kurumlar, kamu kuruluşları ve sektör araştırmacıları tarafından kullanılmasını kolaylaştırmaktadır.

VAANI

Kategoriler

Temalar

Arka Plan ve Geliştirme

Veri Kümesinin Bileşimi ve Temel Özellikleri

Desteklenen Görevler ve Kullanım Alanları

Hint Dil Teknolojisi Açısından Önemi