Kategori
Tema
VAANI ialah set data pertuturan berbilang bahasa berskala besar yang dibangunkan oleh Indian Institute of Science (IISc), Bangalore, mengandungi kira-kira 21,500 jam audio yang dikumpulkan daripada sekitar 110,000 penutur merentasi 120 daerah di 22 negeri di India. Ia merangkumi 86 bahasa dan dialek yang dituturkan di seluruh India, termasuk bahasa utama yang dijadualkan serta pelbagai ragam serantau dan kaum, dengan 835 jam pertuturan yang telah ditranskripsi.
Set data ini direka untuk menyokong pelbagai tugasan pertuturan dan bahasa termasuk pengecaman pertuturan automatik, sintesis teks-ke-pertuturan, pengecaman penutur, pengecaman bahasa, peningkatan kualiti pertuturan, serta pembangunan model bahasa multimodal. Dikeluarkan di bawah lesen CC BY 4.0, ia bertujuan terutamanya untuk latihan dan penanda aras sistem AI, dengan kerelevanan khusus bagi penyelidik dan pembangun yang bekerja pada bahasa India ber-sumber rendah dan kurang diwakili.
Latar Belakang dan Pembangunan
VAANI (yang bermaksud “suara” atau “pertuturan” dalam beberapa bahasa India) telah dicipta oleh Institut Sains India (IISc) di Bangalore sebagai sebahagian daripada usaha untuk menangani jurang yang ketara dalam sumber data pertuturan bagi bahasa-bahasa India. Landskap linguistik India antara yang paling pelbagai di dunia, merangkumi ratusan bahasa dan ribuan dialek, namun kebanyakan set data pertuturan sedia ada tertumpu pada sebilangan kecil bahasa yang mempunyai sumber yang lebih baik. VAANI dibangunkan untuk memperluas ketersediaan data latihan bagi ruang linguistik yang kurang mendapat perkhidmatan ini melalui pengumpulan data lapangan berskala besar merentas kawasan yang berbeza dari segi geografi dan linguistik di seluruh negara.
Data dikumpulkan daripada kira-kira 110,000 penutur yang tersebar di 120 daerah dalam 22 negeri di India, mencerminkan usaha yang disengajakan untuk menangkap variasi serantau dan dialek yang sebenar, bukannya bergantung pada rakaman studio yang dikawal. Set data ini merangkumi 86 bahasa dan dialek, daripada bahasa berjadual utama seperti Hindi, Tamil, Telugu, Bengali, Kannada, dan Malayalam kepada pelbagai ragam serantau dan bahasa suku termasuk Gondi, Santali, Kurukh, Wancho, dan Tenyidie, antara banyak yang lain.
VAANI merangkumi kira-kira 21,500 jam audio secara keseluruhan, menjadikannya salah satu korpus pertuturan berbilang bahasa terbesar yang memfokus pada bahasa-bahasa India. Daripada jumlah ini, 835 jam telah ditranskripsi, sekali gus menyediakan anotasi teks kebenaran asas bagi sebahagian daripada koleksi. Set data ini juga menggabungkan elemen multimodal, menjadikannya sesuai untuk digunakan di luar tugasan pertuturan konvensional.
Ciri-ciri utama set data termasuk:
- Cakupan 86 bahasa dan dialek, termasuk banyak ragam berkeperluan rendah dan bahasa suku
- Sumbangan daripada sekitar 110,000 penutur merentas latar belakang geografi dan demografi yang pelbagai
- 21,500 jam audio keseluruhan dengan 835 jam pertuturan yang ditranskripsikan
- Rakaman lapangan merentas 120 daerah di 22 negeri di India
- Dikeluarkan di bawah lesen CC BY 4.0, membolehkan penggunaan semula yang meluas dengan atribusi
- Sokongan untuk aplikasi penyelidikan unimodal dan multimodal
Tugasan Disokong dan Kes Penggunaan
VAANI direka bentuk untuk menjadi sumber bagi pelbagai jenis tugasan pemprosesan pertuturan dan bahasa. Penyelidik dan pembangun boleh menggunakannya untuk melatih dan menilai sistem pengecaman pertuturan automatik (ASR), sintesis teks-ke-pertuturan (TTS), pengecaman penutur, serta model pengecaman bahasa. Set data ini juga menyokong kerja pada peningkatan kualiti pertuturan dan pembangunan model bahasa besar multimodal (LLM). Keluasan liputan bahasanya menjadikannya amat relevan untuk penanda aras bagi sistem yang bertujuan beroperasi dalam persekitaran linguistik India yang pelbagai.
Memandangkan kemasukan banyak bahasa dan dialek berkeperluan rendah yang sebelum ini mempunyai sedikit atau tiada data pertuturan, VAANI mempunyai nilai yang khusus bagi penyelidik yang memberi tumpuan kepada pembinaan teknologi bahasa yang inklusif. Ia menyediakan asas untuk membangunkan alat ASR dan pemprosesan bahasa semula jadi yang boleh menyokong komuniti yang bahasa mereka sebelum ini tidak pernah hadir dalam pembangunan AI arus perdana.
Kepentingan untuk Teknologi Bahasa India
Skala dan kepelbagaian linguistik VAANI menjadikannya sumbangan yang ketara dalam bidang penyelidikan pertuturan berbilang bahasa, khususnya dalam konteks bahasa-bahasa Asia Selatan. Dengan mendokumentasikan ragam pertuturan daripada komuniti suku, luar bandar, dan serantau bersama-sama dengan bahasa yang lebih meluas digunakan, set data ini merakam dimensi warisan linguistik India yang jarang diwakili dalam sumber pengkomputeran. Lesen terbukanya memudahkan penggunaan oleh institusi akademik, badan kerajaan, dan penyelidik industri yang berusaha ke arah teknologi pertuturan yang lebih inklusif dan mewakili.