Ιστορικό και Ανάπτυξη

VAANI (που σημαίνει "φωνή" ή "ομιλία" σε πολλές ινδικές γλώσσες) δημιουργήθηκε από το Ινδικό Ινστιτούτο Επιστήμης (IISc) στην Μπανγκαλόρ, στο πλαίσιο μιας προσπάθειας να καλυφθεί το σημαντικό κενό στους πόρους δεδομένων ομιλίας για τις ινδικές γλώσσες. Το γλωσσικό τοπίο της Ινδίας είναι από τα πιο ποικιλόμορφα στον κόσμο, περιλαμβάνοντας εκατοντάδες γλώσσες και χιλιάδες διαλέκτους, ωστόσο η πλειοψηφία των υπαρχόντων συνόλων δεδομένων ομιλίας επικεντρώνεται σε ένα στενό σύνολο γλωσσών με καλούς πόρους. Το VAANI αναπτύχθηκε για να επεκτείνει τη διαθεσιμότητα εκπαιδευτικών δεδομένων για αυτόν τον υποεξυπηρετούμενο γλωσσικό χώρο, διεξάγοντας συλλογή δεδομένων πεδίου σε γεωγραφικά και γλωσσικά ποικιλόμορφες περιοχές της χώρας.

Δεδομένα συλλέχθηκαν από περίπου 110,000 ομιλητές που διασκορπίστηκαν σε 120 περιοχές σε 22 ινδικές πολιτείες, αντικατοπτρίζοντας μια συνειδητή προσπάθεια να καταγραφούν αυθεντικές περιφερειακές και διαλεκτικές παραλλαγές αντί να βασίζονται σε ελεγχόμενες ηχογραφήσεις στο στούντιο. Το σύνολο δεδομένων καλύπτει 86 γλώσσες και διαλέκτους, που κυμαίνονται από κύριες προγραμματισμένες γλώσσες όπως τα Χίντι, Ταμίλ, Τελούγκου, Μπενγκάλι, Καννάδα και Μαλαιάλαμ έως πολλές περιφερειακές ποικιλίες και φυλετικές γλώσσες όπως οι Γκόντι, Σαντάλι, Κουρούκ, Γουάντσο και Τενυδίε, μεταξύ πολλών άλλων.

Σύνθεση Συνόλου Δεδομένων και Κύρια Χαρακτηριστικά

Το VAANI περιλαμβάνει περίπου 21,500 ώρες ήχου συνολικά, καθιστώντας το ένα από τα μεγαλύτερα πολύγλωσσα σώματα ομιλίας που επικεντρώνονται στις ινδικές γλώσσες. Από αυτές, 835 ώρες έχουν μεταγραφεί, παρέχοντας ακριβείς κειμενικές σημειώσεις για ένα υποσύνολο της συλλογής. Το σύνολο δεδομένων ενσωματώνει επίσης πολυτροπικά στοιχεία, τοποθετώντας το για χρήση πέρα από τις συμβατικές εργασίες ομιλίας.

Κύρια χαρακτηριστικά του συνόλου δεδομένων περιλαμβάνουν:

Κάλυψη 86 γλωσσών και διαλέκτων, συμπεριλαμβανομένων πολλών γλωσσών με λίγους πόρους και φυλετικών ποικιλιών
Συμβολές από περίπου 110,000 ομιλητές με ποικιλία γεωγραφικών και δημογραφικών υποβάθρων
21,500 συνολικές ώρες ήχου με 835 ώρες μεταγραμμένης ομιλίας
Ηχογραφήσεις πεδίου που εκτείνονται σε 120 περιοχές σε 22 ινδικές πολιτείες
Δημοσιευμένο υπό άδεια CC BY 4.0, επιτρέποντας ευρεία επαναχρησιμοποίηση με αναγνώριση
Υποστήριξη τόσο για μονοτροπικές όσο και για πολυτροπικές ερευνητικές εφαρμογές

Υποστηριζόμενες Εργασίες και Χρήσεις

Το VAANI έχει σχεδιαστεί για να χρησιμεύει ως πόρος για ένα ευρύ φάσμα εργασιών επεξεργασίας ομιλίας και γλώσσας. Ερευνητές και προγραμματιστές μπορούν να το χρησιμοποιήσουν για την εκπαίδευση και αξιολόγηση συστημάτων αυτόματης αναγνώρισης ομιλίας (ASR), σύνθεσης κειμένου σε ομιλία (TTS), αναγνώρισης ομιλητή και μοντέλων αναγνώρισης γλώσσας. Το σύνολο δεδομένων υποστηρίζει επίσης εργασίες για την ενίσχυση της ομιλίας και την ανάπτυξη πολυτροπικών μεγάλων γλωσσικών μοντέλων (LLMs). Η ευρεία κάλυψη γλωσσών το καθιστά ιδιαίτερα σχετικό για τη βαθμολόγηση συστημάτων που προορίζονται να λειτουργούν σε όλο το ποικιλόμορφο γλωσσικό περιβάλλον της Ινδίας.

Δεδομένου ότι περιλαμβάνει πολλές γλώσσες και διαλέκτους με λίγους πόρους για τις οποίες υπάρχουν ελάχιστα ή καθόλου προηγούμενα δεδομένα ομιλίας, το VAANI έχει ιδιαίτερη αξία για ερευνητές που επικεντρώνονται στην ανάπτυξη συμπεριληπτικών γλωσσικών τεχνολογιών. Παρέχει μια βάση για την ανάπτυξη εργαλείων ASR και φυσικής γλώσσας που θα μπορούσαν να εξυπηρετήσουν κοινότητες των οποίων οι γλώσσες έχουν ιστορικά απουσιάσει από την κύρια ανάπτυξη της AI.

Σημασία για την Τεχνολογία Ινδικών Γλωσσών

Η κλίμακα και η γλωσσική ποικιλία του VAANI το καθιστούν μια αξιοσημείωτη συμβολή στον τομέα της πολύγλωσσης έρευνας ομιλίας, ιδιαίτερα στο πλαίσιο των νότιων ασιατικών γλωσσών. Καταγράφοντας προφορικές ποικιλίες από φυλετικές, αγροτικές και περιφερειακές κοινότητες παράλληλα με πιο ευρέως ομιλούμενες γλώσσες, το σύνολο δεδομένων αποτυπώνει μια διάσταση της γλωσσικής κληρονομιάς της Ινδίας που σπάνια εκπροσωπείται σε υπολογιστικούς πόρους. Η ανοιχτή άδεια του διευκολύνει τη χρήση από ακαδημαϊκά ιδρύματα, κυβερνητικούς φορείς και ερευνητές της βιομηχανίας που εργάζονται προς πιο συμπεριληπτικές και αντιπροσωπευτικές τεχνολογίες ομιλίας.

VAANI

Κατηγορίες

Θέματα

Ιστορικό και Ανάπτυξη

Σύνθεση Συνόλου Δεδομένων και Κύρια Χαρακτηριστικά

Υποστηριζόμενες Εργασίες και Χρήσεις

Σημασία για την Τεχνολογία Ινδικών Γλωσσών