Latar Belakang dan Pembangunan

VAANI (yang bermaksud “suara” atau “pertuturan” dalam beberapa bahasa India) telah dicipta oleh Institut Sains India (IISc) di Bangalore sebagai sebahagian daripada usaha untuk menangani jurang yang ketara dalam sumber data pertuturan bagi bahasa-bahasa India. Landskap linguistik India antara yang paling pelbagai di dunia, merangkumi ratusan bahasa dan ribuan dialek, namun kebanyakan set data pertuturan sedia ada tertumpu pada sebilangan kecil bahasa yang mempunyai sumber yang lebih baik. VAANI dibangunkan untuk memperluas ketersediaan data latihan bagi ruang linguistik yang kurang mendapat perkhidmatan ini melalui pengumpulan data lapangan berskala besar merentas kawasan yang berbeza dari segi geografi dan linguistik di seluruh negara.

Data dikumpulkan daripada kira-kira 110,000 penutur yang tersebar di 120 daerah dalam 22 negeri di India, mencerminkan usaha yang disengajakan untuk menangkap variasi serantau dan dialek yang sebenar, bukannya bergantung pada rakaman studio yang dikawal. Set data ini merangkumi 86 bahasa dan dialek, daripada bahasa berjadual utama seperti Hindi, Tamil, Telugu, Bengali, Kannada, dan Malayalam kepada pelbagai ragam serantau dan bahasa suku termasuk Gondi, Santali, Kurukh, Wancho, dan Tenyidie, antara banyak yang lain.

VAANI merangkumi kira-kira 21,500 jam audio secara keseluruhan, menjadikannya salah satu korpus pertuturan berbilang bahasa terbesar yang memfokus pada bahasa-bahasa India. Daripada jumlah ini, 835 jam telah ditranskripsi, sekali gus menyediakan anotasi teks kebenaran asas bagi sebahagian daripada koleksi. Set data ini juga menggabungkan elemen multimodal, menjadikannya sesuai untuk digunakan di luar tugasan pertuturan konvensional.

Ciri-ciri utama set data termasuk:

Cakupan 86 bahasa dan dialek, termasuk banyak ragam berkeperluan rendah dan bahasa suku

Sumbangan daripada sekitar 110,000 penutur merentas latar belakang geografi dan demografi yang pelbagai

21,500 jam audio keseluruhan dengan 835 jam pertuturan yang ditranskripsikan

Rakaman lapangan merentas 120 daerah di 22 negeri di India

Dikeluarkan di bawah lesen CC BY 4.0, membolehkan penggunaan semula yang meluas dengan atribusi

Sokongan untuk aplikasi penyelidikan unimodal dan multimodal

Tugasan Disokong dan Kes Penggunaan

VAANI direka bentuk untuk menjadi sumber bagi pelbagai jenis tugasan pemprosesan pertuturan dan bahasa. Penyelidik dan pembangun boleh menggunakannya untuk melatih dan menilai sistem pengecaman pertuturan automatik (ASR), sintesis teks-ke-pertuturan (TTS), pengecaman penutur, serta model pengecaman bahasa. Set data ini juga menyokong kerja pada peningkatan kualiti pertuturan dan pembangunan model bahasa besar multimodal (LLM). Keluasan liputan bahasanya menjadikannya amat relevan untuk penanda aras bagi sistem yang bertujuan beroperasi dalam persekitaran linguistik India yang pelbagai.

Memandangkan kemasukan banyak bahasa dan dialek berkeperluan rendah yang sebelum ini mempunyai sedikit atau tiada data pertuturan, VAANI mempunyai nilai yang khusus bagi penyelidik yang memberi tumpuan kepada pembinaan teknologi bahasa yang inklusif. Ia menyediakan asas untuk membangunkan alat ASR dan pemprosesan bahasa semula jadi yang boleh menyokong komuniti yang bahasa mereka sebelum ini tidak pernah hadir dalam pembangunan AI arus perdana.

Kepentingan untuk Teknologi Bahasa India

Skala dan kepelbagaian linguistik VAANI menjadikannya sumbangan yang ketara dalam bidang penyelidikan pertuturan berbilang bahasa, khususnya dalam konteks bahasa-bahasa Asia Selatan. Dengan mendokumentasikan ragam pertuturan daripada komuniti suku, luar bandar, dan serantau bersama-sama dengan bahasa yang lebih meluas digunakan, set data ini merakam dimensi warisan linguistik India yang jarang diwakili dalam sumber pengkomputeran. Lesen terbukanya memudahkan penggunaan oleh institusi akademik, badan kerajaan, dan penyelidik industri yang berusaha ke arah teknologi pertuturan yang lebih inklusif dan mewakili.

VAANI

Kategori

Tema

Latar Belakang dan Pembangunan

Tugasan Disokong dan Kes Penggunaan

Kepentingan untuk Teknologi Bahasa India