21 500 hours CC-BY 4.0 Training ყველა ენა

თემები

voice audionlp

VAANI არის მასშტაბური მრავალენოვანი მეტყველების მონაცემთა ნაკრები, რომელიც შემუშავებულია ინდოეთის მეცნიერებათა ინსტიტუტის (IISc), ბენგალურუს მიერ და შეიცავს დაახლოებით 21,500 საათის აუდიოს, შეგროვებულს დაახლოებით 110,000 მოსაუბრიდან 120 რაიონში ინდოეთის 22 შტატში. იგი მოიცავს 86 ენასა და დიალექტს, რომლებიც ინდოეთის მასშტაბით გამოიყენება, მათ შორის ძირითადი დაგეგმილი ენები და ასევე მრავალი რეგიონული და ტომობრივი ვარიანტი, ხოლო ტრანსკრიბირებული მეტყველების მოცულობა შეადგენს 835 საათს.

მონაცემთა ნაკრები შექმნილია მეტყველებისა და ენის სხვადასხვა ამოცანების მხარდასაჭერად, მათ შორის ავტომატური მეტყველების ამოცნობა, ტექსტიდან მეტყველების სინთეზი, მოსაუბრის იდენტიფიკაცია, ენის იდენტიფიკაცია, მეტყველების გაძლიერება და მულტიმოდალური ენობრივი მოდელების განვითარება. გამოშვებულია CC BY 4.0 ლიცენზიით და ძირითადად განკუთვნილია AI სისტემების ტრენინგისა და ბენჩმარკინგისთვის; განსაკუთრებით მნიშვნელოვანია იმ მკვლევრებისთვის და დეველოპერებისთვის, რომლებიც მუშაობენ დაბალრესურსიან და ნაკლებად წარმოდგენილ ინდოეთის ენებზე.

ფონი და განვითარება

VAANI (რაც ნიშნავს „ხმას“ ან „მეტყველებას“ რამდენიმე ინდურ ენაში) შექმნა ინდოეთის მეცნიერებათა ინსტიტუტმა (IISc) ბანგალორში, როგორც ინდურ ენებზე მეტყველების მონაცემთა რესურსების მნიშვნელოვანი დეფიციტის დასაძლევად მიმართული ძალისხმევის ნაწილი. ინდოეთის ენობრივი ლანდშაფტი მსოფლიოში ერთ-ერთი ყველაზე მრავალფეროვანია: მასში ასობით ენა და ათასობით დიალექტია, თუმცა არსებული მეტყველების მონაცემთა ბაზების უმეტესობა კონცენტრირებულია შეზღუდულ რაოდენობაზე კარგად რესურსმომარაგებულ ენებზე. VAANI შეიქმნა ამ ნაკლებად მომსახურებულ ენობრივ სივრცეში სასწავლო მონაცემების ხელმისაწვდომობის გასაფართოებლად, ქვეყნის გეოგრაფიულად და ენობრივად მრავალფეროვან რეგიონებში მასშტაბური საველე მონაცემების შეგროვების გზით.

მონაცემები შეგროვდა დაახლოებით 110,000 მოსაუბრიდან, რომლებიც გავრცელებულნი იყვნენ 120 რაიონში 22 ინდურ შტატში. ეს ასახავს მიზანმიმართულ მცდელობას, რომ დაფიქსირებულიყო რეალური რეგიონული და დიალექტური განსხვავებები და არ დაეყრდნო კონტროლირებულ სტუდიურ ჩანაწერებს. მონაცემთა ბაზა მოიცავს 86 ენასა და დიალექტს: ძირითადი დაგეგმილი ენებიდან, როგორიცაა ჰინდი, თამილური, ტელუგუ, ბენგალური, კანადა და მალაიალამი, მრავალრიცხოვან რეგიონულ ნაირსახეობებსა და ტომობრივ ენებსაც კი, მათ შორის გონდი, სანტალი, კურუხი, ვანჩო და ტენიდიე, სხვებთან ერთად.

მონაცემთა ბაზის შემადგენლობა და ძირითადი მახასიათებლები

VAANI მთლიანობაში მოიცავს დაახლოებით 21,500 საათის აუდიოს, რაც მას ერთ-ერთ ყველაზე დიდ მრავალენოვან მეტყველების კორპუსად აქცევს, რომელიც ფოკუსირებულია ინდურ ენებზე. ამათგან 835 საათი არის ტრანსკრიბირებული, რაც უზრუნველყოფს საკვლევი კოლექციის ნაწილისთვის ჭეშმარიტ ტექსტურ ანოტაციებს. მონაცემთა ბაზა ასევე აერთიანებს მულტიმოდალურ ელემენტებს, რაც მას ჩვეულებრივ მეტყველების ამოცანებს მიღმა გამოყენებისთვისაც ამზადებს.

მონაცემთა ბაზის ძირითადი მახასიათებლებია:

  • 86 ენისა და დიალექტის დაფარვა, მათ შორის მრავალი დაბალრესურსიანი და ტომობრივი ნაირსახეობა
  • დაახლოებით 110,000 მოსაუბრის წვლილი სხვადასხვა გეოგრაფიული და დემოგრაფიული ფონის მქონე ადამიანებიდან
  • 21,500 საათი აუდიო მთლიანობაში, მათ შორის 835 საათი ტრანსკრიბირებული მეტყველება
  • საველე ჩანაწერები 120 რაიონიდან 22 ინდურ შტატში
  • გამოშვებულია CC BY 4.0 ლიცენზიით, რაც ფართო ხელახალ გამოყენებას ატრიბუციით იძლევა
  • მხარდაჭერა როგორც უნიმოდალური, ისე მულტიმოდალური კვლევითი გამოყენებისთვის

მხარდაჭერილი ამოცანები და გამოყენების შემთხვევები

VAANI შექმნილია იმისთვის, რომ იყოს რესურსი მეტყველებისა და ენის დამუშავების ამოცანების ფართო სპექტრისთვის. მკვლევრებსა და დეველოპერებს შეუძლიათ გამოიყენონ იგი ავტომატური მეტყველების ამოცნობის (ASR) სისტემების, ტექსტიდან მეტყველების (TTS) სინთეზის, მოსაუბრის იდენტიფიკაციისა და ენის იდენტიფიკაციის მოდელების ტრენინგისა და შეფასებისთვის. მონაცემთა ბაზა ასევე მხარს უჭერს მუშაობას მეტყველების გაუმჯობესებაზე და მულტიმოდალური დიდი ენობრივი მოდელების (LLMs) განვითარებაზე. ენების დაფარვის ფართო მასშტაბი მას განსაკუთრებით აქტუალურს ხდის იმ სისტემებისთვის, რომლებიც უნდა მუშაობდნენ ინდოეთის მრავალფეროვან ენობრივ გარემოში.

იმის გათვალისწინებით, რომ ჩართულია მრავალი დაბალრესურსიანი ენა და დიალექტი, რომელთათვისაც მცირე ან საერთოდ არ არსებობს წინასწარი მეტყველების მონაცემები, VAANI განსაკუთრებულ ღირებულებას სძენს იმ მკვლევრებს, რომლებიც ცდილობენ ინკლუზიური ენობრივი ტექნოლოგიების შექმნას. ის ქმნის საფუძველს ASR-ისა და ბუნებრივი ენის დამუშავების ინსტრუმენტების განვითარებისთვის, რომლებიც შეიძლება ემსახურებოდეს იმ თემებს, რომელთა ენებიც ისტორიულად არ ყოფილა წარმოდგენილი ძირითად AI განვითარებაში.

მნიშვნელობა ინდური ენობრივი ტექნოლოგიებისთვის

VAANI-ის მასშტაბმა და ენობრივმა მრავალფეროვნებამ ის მნიშვნელოვან შენატანად აქცია მრავალენოვან მეტყველების კვლევის სფეროში, განსაკუთრებით სამხრეთაზიური ენების კონტექსტში. ტომობრივი, სოფლური და რეგიონული თემებიდან წარმოთქმული ნაირსახეობების დოკუმენტირებით, უფრო ფართოდ გავრცელებულ ენებთან ერთად, მონაცემთა ბაზა ასახავს ინდოეთის ენობრივი მემკვიდრეობის იმ განზომილებას, რომელიც იშვიათად არის წარმოდგენილი გამოთვლით რესურსებში. მისი ღია ლიცენზია ხელს უწყობს გამოყენებას აკადემიური ინსტიტუტების, სამთავრობო უწყებებისა და ინდუსტრიის მკვლევრების მიერ, რომლებიც მუშაობენ უფრო ინკლუზიური და წარმომადგენლობითი მეტყველების ტექნოლოგიებისკენ.

ანგარიში