Danh mục
Chủ đề
VAANI là một tập dữ liệu giọng nói đa ngôn ngữ quy mô lớn được phát triển bởi Viện Khoa học Ấn Độ (IISc), Bangalore, chứa khoảng 21.500 giờ âm thanh được thu thập từ khoảng 110.000 người nói ở 120 quận thuộc 22 bang Ấn Độ. Nó bao gồm 86 ngôn ngữ và phương ngữ được nói trên khắp Ấn Độ, bao gồm các ngôn ngữ chính thức cũng như nhiều biến thể vùng và bộ lạc, với 835 giờ giọng nói đã được phiên âm.
Tập dữ liệu được thiết kế để hỗ trợ một loạt các nhiệm vụ về giọng nói và ngôn ngữ, bao gồm nhận diện giọng nói tự động, tổng hợp giọng nói từ văn bản, xác định người nói, xác định ngôn ngữ, cải thiện giọng nói và phát triển mô hình ngôn ngữ đa phương thức. Được phát hành dưới giấy phép CC BY 4.0, nó chủ yếu nhằm mục đích đào tạo và đánh giá các hệ thống AI, đặc biệt có liên quan đến các nhà nghiên cứu và phát triển làm việc với các ngôn ngữ Ấn Độ ít tài nguyên và chưa được đại diện.
Nền tảng và Phát triển
VAANI (nghĩa là "giọng nói" hoặc "phát biểu" trong một số ngôn ngữ Ấn Độ) được tạo ra bởi Viện Khoa học Ấn Độ (IISc) tại Bangalore như một phần của nỗ lực nhằm giải quyết khoảng cách đáng kể trong nguồn dữ liệu giọng nói cho các ngôn ngữ Ấn Độ. Cảnh quan ngôn ngữ của Ấn Độ là một trong những đa dạng nhất trên thế giới, bao gồm hàng trăm ngôn ngữ và hàng nghìn phương ngữ, tuy nhiên phần lớn các tập dữ liệu giọng nói hiện có tập trung vào một tập hợp hẹp các ngôn ngữ được tài trợ tốt. VAANI được phát triển để mở rộng khả năng tiếp cận dữ liệu đào tạo cho không gian ngôn ngữ chưa được phục vụ này bằng cách tiến hành thu thập dữ liệu thực địa quy mô lớn trên các vùng địa lý và ngôn ngữ đa dạng của đất nước.
Dữ liệu được thu thập từ khoảng 110.000 người nói trải rộng trên 120 quận ở 22 bang Ấn Độ, phản ánh nỗ lực có chủ đích để ghi lại sự biến đổi khu vực và phương ngữ thực sự thay vì dựa vào các bản ghi âm trong studio có kiểm soát. Tập dữ liệu bao gồm 86 ngôn ngữ và phương ngữ, từ các ngôn ngữ chính như Hindi, Tamil, Telugu, Bengali, Kannada và Malayalam đến nhiều biến thể khu vực và ngôn ngữ bộ lạc bao gồm Gondi, Santali, Kurukh, Wancho và Tenyidie, cùng nhiều ngôn ngữ khác.
Thành phần Tập dữ liệu và Các Tính năng Chính
VAANI bao gồm khoảng 21.500 giờ âm thanh tổng cộng, khiến nó trở thành một trong những tập dữ liệu giọng nói đa ngôn ngữ lớn nhất tập trung vào các ngôn ngữ Ấn Độ. Trong số này, 835 giờ đã được phiên âm, cung cấp chú thích văn bản chính xác cho một phần của bộ sưu tập. Tập dữ liệu cũng bao gồm các yếu tố đa phương tiện, định vị nó cho việc sử dụng ngoài các nhiệm vụ giọng nói thông thường.
Các đặc điểm chính của tập dữ liệu bao gồm:
- Phạm vi bao phủ 86 ngôn ngữ và phương ngữ, bao gồm nhiều biến thể ít tài nguyên và bộ lạc
- Các đóng góp từ khoảng 110.000 người nói đến từ các nền tảng địa lý và nhân khẩu học đa dạng
- Tổng cộng 21.500 giờ âm thanh với 835 giờ giọng nói đã được phiên âm
- Các bản ghi thực địa trải dài trên 120 quận ở 22 bang Ấn Độ
- Được phát hành dưới giấy phép CC BY 4.0, cho phép tái sử dụng rộng rãi với ghi nhận
- Hỗ trợ cho cả ứng dụng nghiên cứu đơn phương và đa phương tiện
Các Nhiệm vụ và Trường hợp Sử dụng Được Hỗ trợ
VAANI được thiết kế để phục vụ như một nguồn tài nguyên cho nhiều loại nhiệm vụ xử lý giọng nói và ngôn ngữ. Các nhà nghiên cứu và nhà phát triển có thể sử dụng nó để đào tạo và đánh giá các hệ thống nhận diện giọng nói tự động (ASR), tổng hợp văn bản thành giọng nói (TTS), nhận diện người nói và mô hình nhận diện ngôn ngữ. Tập dữ liệu cũng hỗ trợ công việc về cải thiện giọng nói và phát triển các mô hình ngôn ngữ lớn đa phương tiện (LLMs). Phạm vi ngôn ngữ của nó khiến nó đặc biệt phù hợp cho việc đánh giá các hệ thống dự kiến hoạt động trong môi trường ngôn ngữ đa dạng của Ấn Độ.
Với việc bao gồm nhiều ngôn ngữ và phương ngữ ít tài nguyên mà trước đây có rất ít hoặc không có dữ liệu giọng nói, VAANI có giá trị đặc biệt cho các nhà nghiên cứu tập trung vào việc xây dựng công nghệ ngôn ngữ bao trùm. Nó cung cấp nền tảng để phát triển các công cụ ASR và xử lý ngôn ngữ tự nhiên có thể phục vụ cho các cộng đồng mà ngôn ngữ của họ từ trước đến nay chưa được đưa vào phát triển AI chính thống.
Ý nghĩa đối với Công nghệ Ngôn ngữ Ấn Độ
Quy mô và sự đa dạng ngôn ngữ của VAANI khiến nó trở thành một đóng góp đáng chú ý cho lĩnh vực nghiên cứu giọng nói đa ngôn ngữ, đặc biệt trong bối cảnh các ngôn ngữ Nam Á. Bằng cách ghi lại các biến thể nói từ các cộng đồng bộ lạc, nông thôn và khu vực bên cạnh các ngôn ngữ được nói rộng rãi hơn, tập dữ liệu ghi lại một chiều kích của di sản ngôn ngữ Ấn Độ mà hiếm khi được đại diện trong các nguồn tài nguyên tính toán. Giấy phép mở của nó tạo điều kiện cho việc sử dụng bởi các tổ chức học thuật, cơ quan chính phủ và các nhà nghiên cứu trong ngành đang làm việc hướng tới các công nghệ giọng nói bao trùm và đại diện hơn.