21.500 hours CC-BY 4.0 Training Tüm diller

Temalar

voice audionlp

VAANI, Indian Institute of Science (IISc), Bangalore tarafından geliştirilen, Hindistan’ın 22 eyaletindeki 120 ilçede yaklaşık 110.000 konuşmacıdan toplanmış yaklaşık 21.500 saatlik ses kaydı içeren büyük ölçekli çok dilli bir konuşma veri kümesidir. Hindistan genelinde konuşulan 86 dili ve lehçeyi kapsar; buna başlıca planlı dillerin yanı sıra çok sayıda bölgesel ve kabile dili çeşidi de dahildir ve 835 saatlik deşifre edilmiş konuşma içerir.

Veri kümesi, otomatik konuşma tanıma, metinden konuşma sentezi, konuşmacı tanımlama, dil tanımlama, konuşma iyileştirme ve çok modlu dil modeli geliştirme dâhil olmak üzere çeşitli konuşma ve dil görevlerini desteklemek üzere tasarlanmıştır. CC BY 4.0 lisansı altında yayımlanan bu veri kümesi, öncelikle AI sistemlerinin eğitimi ve kıyaslanması için amaçlanmıştır ve özellikle düşük kaynaklı ve yeterince temsil edilmeyen Hint dilleri üzerinde çalışan araştırmacılar ve geliştiriciler için büyük önem taşımaktadır.

Arka Plan ve Geliştirme

VAANI (birçok Hint dilinde “ses” veya “konuşma” anlamına gelir), Hindistan dilleri için konuşma verisi kaynaklarındaki önemli açığı gidermeye yönelik bir çabanın parçası olarak Bangalore’daki Indian Institute of Science (IISc) tarafından oluşturuldu. Hindistan’ın dilsel yapısı, yüzlerce dili ve binlerce lehçeyi kapsayarak dünyadaki en çeşitli yapılardan biridir; buna karşın mevcut konuşma veri kümelerinin büyük çoğunluğu, kaynak bakımından güçlü dar bir dil grubuna odaklanmaktadır. VAANI, ülkenin coğrafi ve dilsel açıdan çeşitli bölgelerinde geniş ölçekli saha verisi toplama çalışmaları yürüterek, yeterince hizmet almayan bu dilsel alan için eğitim verisinin erişilebilirliğini artırmak amacıyla geliştirildi.

Veriler, kontrollü stüdyo kayıtlarına dayanmak yerine gerçek bölgesel ve lehçesel çeşitliliği yakalamaya yönelik bilinçli bir çabayı yansıtacak şekilde, 22 Hint eyaletindeki 120 ilçeye yayılmış yaklaşık 110.000 konuşmacıdan toplandı. Veri kümesi, Hintçe, Tamilce, Telugu, Bengalce, Kannada ve Malayalam gibi başlıca planlanmış dillerden; Gondi, Santali, Kurukh, Wancho ve Tenyidie gibi çok sayıda bölgesel çeşit ve kabile diline kadar uzanan 86 dil ve lehçeyi kapsamaktadır.

Veri Kümesinin Bileşimi ve Temel Özellikleri

VAANI, toplamda yaklaşık 21.500 saatlik ses verisi içermektedir; bu da onu Hint dillerine odaklanan en büyük çok dilli konuşma derlemlerinden biri yapmaktadır. Bunun 835 saati çözümlenmiş olup, koleksiyonun bir alt kümesi için gerçek metin açıklamaları sağlamaktadır. Veri kümesi ayrıca çok modlu unsurlar da içererek, geleneksel konuşma görevlerinin ötesinde kullanım için uygun hale gelmektedir.

Veri kümesinin temel özellikleri şunlardır:

  • Düşük kaynaklı ve kabile dilleri de dahil olmak üzere 86 dil ve lehçeyi kapsaması
  • Çeşitli coğrafi ve demografik geçmişlerden yaklaşık 110.000 konuşmacının katkıları
  • Toplam 21.500 saat ses verisi ve bunun içinde 835 saat çözümlenmiş konuşma
  • 22 Hint eyaletindeki 120 ilçeyi kapsayan saha kayıtları
  • CC BY 4.0 lisansı altında yayımlanmış olması; bu da atıf verilmesi koşuluyla geniş çaplı yeniden kullanıma izin verir
  • Hem tek modlu hem de çok modlu araştırma uygulamalarını desteklemesi

Desteklenen Görevler ve Kullanım Alanları

VAANI, çok çeşitli konuşma ve dil işleme görevleri için bir kaynak olarak hizmet vermek üzere tasarlanmıştır. Araştırmacılar ve geliştiriciler bunu otomatik konuşma tanıma (ASR) sistemlerini, metinden konuşmaya (TTS) sentezini, konuşmacı tanımlama ve dil tanımlama modellerini eğitmek ve değerlendirmek için kullanabilir. Veri kümesi ayrıca konuşma iyileştirme çalışmaları ile çok modlu büyük dil modellerinin (LLM’ler) geliştirilmesini de desteklemektedir. Geniş dil kapsamı, onu özellikle Hindistan’ın çeşitli dil ortamında çalışması amaçlanan sistemlerin kıyaslanması açısından önemli kılmaktadır.

Daha önce çok az ya da hiç konuşma verisi bulunmayan birçok düşük kaynaklı dil ve lehçenin dahil edilmesi göz önüne alındığında, VAANI kapsayıcı dil teknolojileri geliştirmeye odaklanan araştırmacılar için özellikle değerlidir. Tarihsel olarak ana akım yapay zekâ geliştirme süreçlerinde yer almamış topluluklara hizmet edebilecek ASR ve doğal dil işleme araçlarının geliştirilmesi için bir temel sunmaktadır.

Hint Dil Teknolojisi Açısından Önemi

VAANI’nin ölçeği ve dilsel çeşitliliği, özellikle Güney Asya dilleri bağlamında, onu çok dilli konuşma araştırmaları alanına kayda değer bir katkı haline getirmektedir. Veri kümesi, daha yaygın konuşulan dillerin yanı sıra kabile, kırsal ve bölgesel toplulukların konuşma çeşitlerini de belgeleyerek, Hindistan’ın dil mirasının hesaplamalı kaynaklarda nadiren temsil edilen bir boyutunu yakalamaktadır. Açık lisansı, daha kapsayıcı ve daha temsil gücü yüksek konuşma teknolojileri geliştirmeye çalışan akademik kurumlar, kamu kuruluşları ve sektör araştırmacıları tarafından kullanılmasını kolaylaştırmaktadır.

Rapor