21,500 hours CC-BY 4.0 Training Lahat ng wika

Mga Tema

voice audionlp

Ang VAANI ay isang malakihang multilingual na speech dataset na binuo ng Indian Institute of Science (IISc), Bangalore, na naglalaman ng humigit-kumulang 21,500 oras ng audio na nakalap mula sa mga paligid sa 110,000 tagapagsalita sa 120 distrito sa 22 estadong Indian. Saklaw nito ang 86 na wika at diyalekto na sinasalita sa buong India, kabilang ang mga pangunahing wikang nakaiskedyul, pati na rin ang maraming uri sa rehiyon at uri ng mga katutubong tribo, na may 835 oras ng na-transcribe na pananalita.

Dinisenyo ang dataset upang suportahan ang iba’t ibang gawain sa pagsasalita at wika kabilang ang automatic speech recognition, text-to-speech synthesis, speaker identification, language identification, speech enhancement, at pagbuo ng multimodal na language model. Inilabas sa ilalim ng lisensyang CC BY 4.0, pangunahing inilaan ito para sa pagsasanay at pagbe-benchmark ng mga AI system, na may partikular na kaugnayan para sa mga mananaliksik at developer na nagtatrabaho sa mga wikang Indian na mababa ang mapagkukunan at hindi gaanong kinakatawan.

Background at Pag-unlad

Ang VAANI (na nangangahulugang “boses” o “pananalita” sa ilang wikang Indian) ay nilikha ng Indian Institute of Science (IISc) sa Bangalore bilang bahagi ng pagsisikap na tugunan ang malaking kakulangan sa mga mapagkukunan ng datos sa pagsasalita para sa mga wikang Indian. Ang tanawin ng wika ng India ay kabilang sa pinakamapagkakaiba sa mundo, na sumasaklaw sa daan-daan ng mga wika at libu-libong diyalekto, ngunit karamihan sa mga kasalukuyang speech dataset ay nakatuon sa iilang hanay ng mga wikang may sapat na mapagkukunan. Binuo ang VAANI upang palawakin ang pagkakaroon ng training data para sa hindi gaanong napaglilingkuran na puwang sa wika na ito sa pamamagitan ng pagsasagawa ng malakihang pangangalap ng field data sa mga rehiyong heograpikal at lingguwistikal na magkakaiba sa buong bansa.

Ang datos ay nakalap mula sa humigit-kumulang 110,000 tagapagsalita na nakakalat sa 120 distrito sa 22 estadong Indian, na nagpapakita ng sinadyang pagsisikap na makuha ang tunay na pagkakaiba-iba sa rehiyon at diyalekto kaysa umasa sa mga kontroladong recording sa studio. Ang dataset ay sumasaklaw sa 86 wika at diyalekto, mula sa mga pangunahing scheduled na wika tulad ng Hindi, Tamil, Telugu, Bengali, Kannada, at Malayalam hanggang sa maraming uri sa rehiyon at mga wikang tribo kabilang ang Gondi, Santali, Kurukh, Wancho, at Tenyidie, at marami pang iba.

Komposisyon ng Dataset at Mga Pangunahing Tampok

Ang VAANI ay binubuo ng humigit-kumulang 21,500 oras ng audio sa kabuuan, kaya ito ay isa sa pinakamalalaking multilingual speech corpora na nakatuon sa mga wikang Indian. Sa mga ito, 835 oras ang naisalin, na nagbibigay ng ground-truth na mga anotasyon sa teksto para sa isang bahagi ng koleksyon. Isinasama rin ng dataset ang mga multimodal na elemento, na naglalagay dito ang posisyon na magamit lampas sa mga karaniwang gawain sa pagsasalita.

Kabilang sa mga pangunahing katangian ng dataset ang:

  • Saklaw ng 86 wika at diyalekto, kabilang ang maraming mababang-mapagkukunang uri at mga wikang tribo
  • Mga ambag mula sa humigit-kumulang 110,000 tagapagsalita sa magkakaibang heograpikal at demograpikong pinagmulan
  • 21,500 kabuuang oras ng audio na may 835 oras ng naisaling pagsasalita
  • Mga field recording na sumasaklaw sa 120 distrito sa 22 estadong Indian
  • Inilabas sa ilalim ng lisensyang CC BY 4.0, na nagpapahintulot ng malawak na muling paggamit na may pagbanggit
  • Suporta para sa parehong unimodal at multimodal na mga aplikasyon sa pananaliksik

Mga Sinusuportahang Gawain at Mga Gamit

Dinisenyo ang VAANI upang magsilbing mapagkukunan para sa malawak na hanay ng mga gawain sa pagproseso ng pagsasalita at wika. Maaaring gamitin ito ng mga mananaliksik at developer para sa pagsasanay at pagsusuri ng mga automatic speech recognition (ASR) system, text-to-speech (TTS) synthesis, speaker identification, at language identification na mga modelo. Sinusuportahan din ng dataset ang mga gawaing may kinalaman sa speech enhancement at pagbuo ng multimodal na malalaking language model (LLMs). Dahil sa lawak ng saklaw nito sa mga wika, partikular itong mahalaga para sa benchmarking ng mga sistemang nilalayong gumana sa magkakaibang kapaligiran ng wika ng India.

Dahil sa pagsasama ng maraming mababang-mapagkukunang wika at diyalekto na kakaunti o walang umiiral na naunang datos sa pagsasalita, ang VAANI ay may partikular na halaga para sa mga mananaliksik na nakatuon sa pagbuo ng inklusibong mga teknolohiya sa wika. Nagbibigay ito ng pundasyon para sa pagbuo ng mga tool para sa ASR at natural language processing na maaaring magsilbi sa mga komunidad na ang mga wika ay historikal na hindi pa naisasama sa pangunahing pag-unlad ng AI.

Kahalagahan para sa Teknolohiya ng Wikang Indian

Ang sukat at lingguwistikal na pagkakaiba-iba ng VAANI ay ginagawa itong isang kapansin-pansing ambag sa larangan ng multilingual speech research, lalo na sa konteksto ng mga wikang Timog Asya. Sa pamamagitan ng pagdodokumento ng mga uri ng pasalitang pananalita mula sa mga komunidad na tribo, kanayunan, at rehiyon kasama ang mas malawak na ginagamit na mga wika, kinukuha ng dataset ang isang dimensyon ng pamana sa wika ng India na bihirang naipapakita sa mga computational na mapagkukunan. Ang bukas nitong lisensya ay nagpapadali sa paggamit ng mga institusyong pang-akademiko, mga ahensya ng pamahalaan, at mga mananaliksik sa industriya na nagtatrabaho tungo sa mas inklusibo at kinatawan na mga teknolohiya sa pagsasalita.

Ulat