21.500 hours CC-BY 4.0 Training Tutte le lingue

Temi

voice audionlp

VAANI è un dataset vocale multilingue su larga scala sviluppato dall’Indian Institute of Science (IISc), Bangalore, che contiene circa 21.500 ore di audio raccolte da circa 110.000 parlanti in 120 distretti di 22 stati indiani. Copre 86 lingue e dialetti parlati in tutta l’India, comprese le principali lingue ufficialmente riconosciute e numerose varietà regionali e tribali, con 835 ore di parlato trascritto.

Il dataset è progettato per supportare una gamma di attività vocali e linguistiche, tra cui il riconoscimento automatico del parlato, la sintesi vocale text-to-speech, l’identificazione del parlante, l’identificazione della lingua, il miglioramento del parlato e lo sviluppo di modelli linguistici multimodali. Rilasciato con licenza CC BY 4.0, è destinato principalmente all’addestramento e alla valutazione comparativa di sistemi di IA, con particolare rilevanza per ricercatori e sviluppatori che lavorano su lingue indiane a basse risorse e sottorappresentate.

Contesto e sviluppo

VAANI (che significa "voce" o "parola" in diverse lingue indiane) è stato creato dall'Indian Institute of Science (IISc) di Bangalore nell'ambito di uno sforzo volto a colmare il significativo divario nelle risorse di dati vocali per le lingue indiane. Il panorama linguistico dell'India è tra i più diversificati al mondo, comprendendo centinaia di lingue e migliaia di dialetti, eppure la maggior parte dei dataset vocali esistenti si concentra su un insieme ristretto di lingue ben supportate. VAANI è stato sviluppato per ampliare la disponibilità di dati di addestramento per questo spazio linguistico poco servito, conducendo una raccolta di dati sul campo su larga scala in regioni del paese geograficamente e linguisticamente diverse.

I dati sono stati raccolti da circa 110.000 parlanti distribuiti in 120 distretti di 22 stati indiani, riflettendo un impegno deliberato a catturare un'autentica variazione regionale e dialettale piuttosto che fare affidamento su registrazioni in studio controllate. Il dataset copre 86 lingue e dialetti, che vanno dalle principali lingue ufficialmente riconosciute come Hindi, Tamil, Telugu, Bengali, Kannada e Malayalam fino a numerose varietà regionali e lingue tribali, tra cui Gondi, Santali, Kurukh, Wancho e Tenyidie, oltre a molte altre.

Composizione del dataset e caratteristiche principali

VAANI comprende complessivamente circa 21.500 ore di audio, il che lo rende uno dei più grandi corpora vocali multilingue incentrati sulle lingue indiane. Di queste, 835 ore sono state trascritte, fornendo annotazioni testuali di riferimento per un sottoinsieme della raccolta. Il dataset incorpora anche elementi multimodali, rendendolo utilizzabile oltre i compiti vocali convenzionali.

Le caratteristiche principali del dataset includono:

  • Copertura di 86 lingue e dialetti, comprese molte varietà tribali e con poche risorse
  • Contributi di circa 110.000 parlanti provenienti da contesti geografici e demografici diversi
  • 21.500 ore totali di audio con 835 ore di parlato trascritto
  • Registrazioni sul campo effettuate in 120 distretti di 22 stati indiani
  • Rilasciato con licenza CC BY 4.0, che consente un ampio riutilizzo con attribuzione
  • Supporto sia per applicazioni di ricerca unimodali sia multimodali

Compiti supportati e casi d'uso

VAANI è progettato per fungere da risorsa per un'ampia gamma di compiti di elaborazione del parlato e del linguaggio. Ricercatori e sviluppatori possono utilizzarlo per addestrare e valutare sistemi di riconoscimento automatico del parlato (ASR), sintesi text-to-speech (TTS), identificazione del parlante e modelli di identificazione della lingua. Il dataset supporta anche il lavoro sul miglioramento del parlato e lo sviluppo di large language models (LLMs) multimodali. L'ampiezza della sua copertura linguistica lo rende particolarmente rilevante per il benchmarking di sistemi destinati a operare nel variegato ambiente linguistico dell'India.

Data l'inclusione di molte lingue e dialetti con poche risorse per i quali esistono pochi o nessun dato vocale precedente, VAANI ha un valore particolare per i ricercatori impegnati nella costruzione di tecnologie linguistiche inclusive. Fornisce una base per sviluppare strumenti di ASR e di elaborazione del linguaggio naturale che potrebbero servire comunità le cui lingue sono state storicamente assenti dallo sviluppo dell'IA tradizionale.

Importanza per la tecnologia linguistica indiana

La scala e la diversità linguistica di VAANI ne fanno un contributo significativo al campo della ricerca multilingue sul parlato, in particolare nel contesto delle lingue dell'Asia meridionale. Documentando varietà parlate da comunità tribali, rurali e regionali accanto a lingue più ampiamente parlate, il dataset cattura una dimensione del patrimonio linguistico dell'India che raramente è rappresentata nelle risorse computazionali. La sua licenza aperta ne facilita l'uso da parte di istituzioni accademiche, enti governativi e ricercatori dell'industria che lavorano verso tecnologie vocali più inclusive e rappresentative.

Rapporto