21.500 hours CC-BY 4.0 Training Όλες οι γλώσσες

Θέματα

voice audionlp

Το VAANI είναι ένα μεγάλο πολυγλωσσικό σύνολο δεδομένων ομιλίας που αναπτύχθηκε από το Ινδικό Ινστιτούτο Επιστημών (IISc), Μπανγκαλόρ, και περιέχει περίπου 21.500 ώρες ήχου που συλλέχθηκαν από περίπου 110.000 ομιλητές σε 120 περιοχές σε 22 Ινδικές πολιτείες. Καλύπτει 86 γλώσσες και διαλέκτους που ομιλούνται στην Ινδία, συμπεριλαμβανομένων των κύριων προγραμματισμένων γλωσσών καθώς και πολλών περιφερειακών και φυλετικών ποικιλιών, με 835 ώρες μεταγραμμένης ομιλίας.

Το σύνολο δεδομένων έχει σχεδιαστεί για να υποστηρίζει μια σειρά από εργασίες ομιλίας και γλώσσας, συμπεριλαμβανομένης της αυτόματης αναγνώρισης ομιλίας, της σύνθεσης κειμένου σε ομιλία, της αναγνώρισης ομιλητή, της αναγνώρισης γλώσσας, της ενίσχυσης ομιλίας και της ανάπτυξης πολυτροπικών γλωσσικών μοντέλων. Κυκλοφορεί υπό άδεια CC BY 4.0 και προορίζεται κυρίως για εκπαίδευση και αξιολόγηση συστημάτων AI, με ιδιαίτερη σημασία για ερευνητές και προγραμματιστές που εργάζονται σε γλώσσες της Ινδίας με περιορισμένους πόρους και υποεκπροσωπούμενες.

Ιστορικό και Ανάπτυξη

VAANI (που σημαίνει "φωνή" ή "ομιλία" σε πολλές ινδικές γλώσσες) δημιουργήθηκε από το Ινδικό Ινστιτούτο Επιστήμης (IISc) στην Μπανγκαλόρ, στο πλαίσιο μιας προσπάθειας να καλυφθεί το σημαντικό κενό στους πόρους δεδομένων ομιλίας για τις ινδικές γλώσσες. Το γλωσσικό τοπίο της Ινδίας είναι από τα πιο ποικιλόμορφα στον κόσμο, περιλαμβάνοντας εκατοντάδες γλώσσες και χιλιάδες διαλέκτους, ωστόσο η πλειοψηφία των υπαρχόντων συνόλων δεδομένων ομιλίας επικεντρώνεται σε ένα στενό σύνολο γλωσσών με καλούς πόρους. Το VAANI αναπτύχθηκε για να επεκτείνει τη διαθεσιμότητα εκπαιδευτικών δεδομένων για αυτόν τον υποεξυπηρετούμενο γλωσσικό χώρο, διεξάγοντας συλλογή δεδομένων πεδίου σε γεωγραφικά και γλωσσικά ποικιλόμορφες περιοχές της χώρας.

Δεδομένα συλλέχθηκαν από περίπου 110,000 ομιλητές που διασκορπίστηκαν σε 120 περιοχές σε 22 ινδικές πολιτείες, αντικατοπτρίζοντας μια συνειδητή προσπάθεια να καταγραφούν αυθεντικές περιφερειακές και διαλεκτικές παραλλαγές αντί να βασίζονται σε ελεγχόμενες ηχογραφήσεις στο στούντιο. Το σύνολο δεδομένων καλύπτει 86 γλώσσες και διαλέκτους, που κυμαίνονται από κύριες προγραμματισμένες γλώσσες όπως τα Χίντι, Ταμίλ, Τελούγκου, Μπενγκάλι, Καννάδα και Μαλαιάλαμ έως πολλές περιφερειακές ποικιλίες και φυλετικές γλώσσες όπως οι Γκόντι, Σαντάλι, Κουρούκ, Γουάντσο και Τενυδίε, μεταξύ πολλών άλλων.

Σύνθεση Συνόλου Δεδομένων και Κύρια Χαρακτηριστικά

Το VAANI περιλαμβάνει περίπου 21,500 ώρες ήχου συνολικά, καθιστώντας το ένα από τα μεγαλύτερα πολύγλωσσα σώματα ομιλίας που επικεντρώνονται στις ινδικές γλώσσες. Από αυτές, 835 ώρες έχουν μεταγραφεί, παρέχοντας ακριβείς κειμενικές σημειώσεις για ένα υποσύνολο της συλλογής. Το σύνολο δεδομένων ενσωματώνει επίσης πολυτροπικά στοιχεία, τοποθετώντας το για χρήση πέρα από τις συμβατικές εργασίες ομιλίας.

Κύρια χαρακτηριστικά του συνόλου δεδομένων περιλαμβάνουν:

  • Κάλυψη 86 γλωσσών και διαλέκτων, συμπεριλαμβανομένων πολλών γλωσσών με λίγους πόρους και φυλετικών ποικιλιών
  • Συμβολές από περίπου 110,000 ομιλητές με ποικιλία γεωγραφικών και δημογραφικών υποβάθρων
  • 21,500 συνολικές ώρες ήχου με 835 ώρες μεταγραμμένης ομιλίας
  • Ηχογραφήσεις πεδίου που εκτείνονται σε 120 περιοχές σε 22 ινδικές πολιτείες
  • Δημοσιευμένο υπό άδεια CC BY 4.0, επιτρέποντας ευρεία επαναχρησιμοποίηση με αναγνώριση
  • Υποστήριξη τόσο για μονοτροπικές όσο και για πολυτροπικές ερευνητικές εφαρμογές

Υποστηριζόμενες Εργασίες και Χρήσεις

Το VAANI έχει σχεδιαστεί για να χρησιμεύει ως πόρος για ένα ευρύ φάσμα εργασιών επεξεργασίας ομιλίας και γλώσσας. Ερευνητές και προγραμματιστές μπορούν να το χρησιμοποιήσουν για την εκπαίδευση και αξιολόγηση συστημάτων αυτόματης αναγνώρισης ομιλίας (ASR), σύνθεσης κειμένου σε ομιλία (TTS), αναγνώρισης ομιλητή και μοντέλων αναγνώρισης γλώσσας. Το σύνολο δεδομένων υποστηρίζει επίσης εργασίες για την ενίσχυση της ομιλίας και την ανάπτυξη πολυτροπικών μεγάλων γλωσσικών μοντέλων (LLMs). Η ευρεία κάλυψη γλωσσών το καθιστά ιδιαίτερα σχετικό για τη βαθμολόγηση συστημάτων που προορίζονται να λειτουργούν σε όλο το ποικιλόμορφο γλωσσικό περιβάλλον της Ινδίας.

Δεδομένου ότι περιλαμβάνει πολλές γλώσσες και διαλέκτους με λίγους πόρους για τις οποίες υπάρχουν ελάχιστα ή καθόλου προηγούμενα δεδομένα ομιλίας, το VAANI έχει ιδιαίτερη αξία για ερευνητές που επικεντρώνονται στην ανάπτυξη συμπεριληπτικών γλωσσικών τεχνολογιών. Παρέχει μια βάση για την ανάπτυξη εργαλείων ASR και φυσικής γλώσσας που θα μπορούσαν να εξυπηρετήσουν κοινότητες των οποίων οι γλώσσες έχουν ιστορικά απουσιάσει από την κύρια ανάπτυξη της AI.

Σημασία για την Τεχνολογία Ινδικών Γλωσσών

Η κλίμακα και η γλωσσική ποικιλία του VAANI το καθιστούν μια αξιοσημείωτη συμβολή στον τομέα της πολύγλωσσης έρευνας ομιλίας, ιδιαίτερα στο πλαίσιο των νότιων ασιατικών γλωσσών. Καταγράφοντας προφορικές ποικιλίες από φυλετικές, αγροτικές και περιφερειακές κοινότητες παράλληλα με πιο ευρέως ομιλούμενες γλώσσες, το σύνολο δεδομένων αποτυπώνει μια διάσταση της γλωσσικής κληρονομιάς της Ινδίας που σπάνια εκπροσωπείται σε υπολογιστικούς πόρους. Η ανοιχτή άδεια του διευκολύνει τη χρήση από ακαδημαϊκά ιδρύματα, κυβερνητικούς φορείς και ερευνητές της βιομηχανίας που εργάζονται προς πιο συμπεριληπτικές και αντιπροσωπευτικές τεχνολογίες ομιλίας.

Αναφορά