ფონი და განვითარება

VAANI (რაც ნიშნავს „ხმას“ ან „მეტყველებას“ რამდენიმე ინდურ ენაში) შექმნა ინდოეთის მეცნიერებათა ინსტიტუტმა (IISc) ბანგალორში, როგორც ინდურ ენებზე მეტყველების მონაცემთა რესურსების მნიშვნელოვანი დეფიციტის დასაძლევად მიმართული ძალისხმევის ნაწილი. ინდოეთის ენობრივი ლანდშაფტი მსოფლიოში ერთ-ერთი ყველაზე მრავალფეროვანია: მასში ასობით ენა და ათასობით დიალექტია, თუმცა არსებული მეტყველების მონაცემთა ბაზების უმეტესობა კონცენტრირებულია შეზღუდულ რაოდენობაზე კარგად რესურსმომარაგებულ ენებზე. VAANI შეიქმნა ამ ნაკლებად მომსახურებულ ენობრივ სივრცეში სასწავლო მონაცემების ხელმისაწვდომობის გასაფართოებლად, ქვეყნის გეოგრაფიულად და ენობრივად მრავალფეროვან რეგიონებში მასშტაბური საველე მონაცემების შეგროვების გზით.

მონაცემები შეგროვდა დაახლოებით 110,000 მოსაუბრიდან, რომლებიც გავრცელებულნი იყვნენ 120 რაიონში 22 ინდურ შტატში. ეს ასახავს მიზანმიმართულ მცდელობას, რომ დაფიქსირებულიყო რეალური რეგიონული და დიალექტური განსხვავებები და არ დაეყრდნო კონტროლირებულ სტუდიურ ჩანაწერებს. მონაცემთა ბაზა მოიცავს 86 ენასა და დიალექტს: ძირითადი დაგეგმილი ენებიდან, როგორიცაა ჰინდი, თამილური, ტელუგუ, ბენგალური, კანადა და მალაიალამი, მრავალრიცხოვან რეგიონულ ნაირსახეობებსა და ტომობრივ ენებსაც კი, მათ შორის გონდი, სანტალი, კურუხი, ვანჩო და ტენიდიე, სხვებთან ერთად.

მონაცემთა ბაზის შემადგენლობა და ძირითადი მახასიათებლები

VAANI მთლიანობაში მოიცავს დაახლოებით 21,500 საათის აუდიოს, რაც მას ერთ-ერთ ყველაზე დიდ მრავალენოვან მეტყველების კორპუსად აქცევს, რომელიც ფოკუსირებულია ინდურ ენებზე. ამათგან 835 საათი არის ტრანსკრიბირებული, რაც უზრუნველყოფს საკვლევი კოლექციის ნაწილისთვის ჭეშმარიტ ტექსტურ ანოტაციებს. მონაცემთა ბაზა ასევე აერთიანებს მულტიმოდალურ ელემენტებს, რაც მას ჩვეულებრივ მეტყველების ამოცანებს მიღმა გამოყენებისთვისაც ამზადებს.

მონაცემთა ბაზის ძირითადი მახასიათებლებია:

86 ენისა და დიალექტის დაფარვა, მათ შორის მრავალი დაბალრესურსიანი და ტომობრივი ნაირსახეობა
დაახლოებით 110,000 მოსაუბრის წვლილი სხვადასხვა გეოგრაფიული და დემოგრაფიული ფონის მქონე ადამიანებიდან
21,500 საათი აუდიო მთლიანობაში, მათ შორის 835 საათი ტრანსკრიბირებული მეტყველება
საველე ჩანაწერები 120 რაიონიდან 22 ინდურ შტატში
გამოშვებულია CC BY 4.0 ლიცენზიით, რაც ფართო ხელახალ გამოყენებას ატრიბუციით იძლევა
მხარდაჭერა როგორც უნიმოდალური, ისე მულტიმოდალური კვლევითი გამოყენებისთვის

მხარდაჭერილი ამოცანები და გამოყენების შემთხვევები

VAANI შექმნილია იმისთვის, რომ იყოს რესურსი მეტყველებისა და ენის დამუშავების ამოცანების ფართო სპექტრისთვის. მკვლევრებსა და დეველოპერებს შეუძლიათ გამოიყენონ იგი ავტომატური მეტყველების ამოცნობის (ASR) სისტემების, ტექსტიდან მეტყველების (TTS) სინთეზის, მოსაუბრის იდენტიფიკაციისა და ენის იდენტიფიკაციის მოდელების ტრენინგისა და შეფასებისთვის. მონაცემთა ბაზა ასევე მხარს უჭერს მუშაობას მეტყველების გაუმჯობესებაზე და მულტიმოდალური დიდი ენობრივი მოდელების (LLMs) განვითარებაზე. ენების დაფარვის ფართო მასშტაბი მას განსაკუთრებით აქტუალურს ხდის იმ სისტემებისთვის, რომლებიც უნდა მუშაობდნენ ინდოეთის მრავალფეროვან ენობრივ გარემოში.

იმის გათვალისწინებით, რომ ჩართულია მრავალი დაბალრესურსიანი ენა და დიალექტი, რომელთათვისაც მცირე ან საერთოდ არ არსებობს წინასწარი მეტყველების მონაცემები, VAANI განსაკუთრებულ ღირებულებას სძენს იმ მკვლევრებს, რომლებიც ცდილობენ ინკლუზიური ენობრივი ტექნოლოგიების შექმნას. ის ქმნის საფუძველს ASR-ისა და ბუნებრივი ენის დამუშავების ინსტრუმენტების განვითარებისთვის, რომლებიც შეიძლება ემსახურებოდეს იმ თემებს, რომელთა ენებიც ისტორიულად არ ყოფილა წარმოდგენილი ძირითად AI განვითარებაში.

მნიშვნელობა ინდური ენობრივი ტექნოლოგიებისთვის

VAANI-ის მასშტაბმა და ენობრივმა მრავალფეროვნებამ ის მნიშვნელოვან შენატანად აქცია მრავალენოვან მეტყველების კვლევის სფეროში, განსაკუთრებით სამხრეთაზიური ენების კონტექსტში. ტომობრივი, სოფლური და რეგიონული თემებიდან წარმოთქმული ნაირსახეობების დოკუმენტირებით, უფრო ფართოდ გავრცელებულ ენებთან ერთად, მონაცემთა ბაზა ასახავს ინდოეთის ენობრივი მემკვიდრეობის იმ განზომილებას, რომელიც იშვიათად არის წარმოდგენილი გამოთვლით რესურსებში. მისი ღია ლიცენზია ხელს უწყობს გამოყენებას აკადემიური ინსტიტუტების, სამთავრობო უწყებებისა და ინდუსტრიის მკვლევრების მიერ, რომლებიც მუშაობენ უფრო ინკლუზიური და წარმომადგენლობითი მეტყველების ტექნოლოგიებისკენ.

VAANI

კატეგორიები

თემები

ფონი და განვითარება

მონაცემთა ბაზის შემადგენლობა და ძირითადი მახასიათებლები

მხარდაჭერილი ამოცანები და გამოყენების შემთხვევები

მნიშვნელობა ინდური ენობრივი ტექნოლოგიებისთვის