主题
VAANI 是由 Indian Institute of Science (IISc), Bangalore 开发的大规模多语言语音数据集,包含约 21,500 小时的音频,这些音频采集自印度 22 个邦、120 个地区约 110,000 名说话人。它涵盖了印度各地使用的 86 种语言和方言,包括主要的法定语言以及众多地区性和部落语言变体,其中包含 835 小时的转写语音。
该数据集旨在支持多种语音和语言任务,包括自动语音识别、文本转语音合成、说话人识别、语言识别、语音增强以及多模态语言模型开发。它以 CC BY 4.0 许可发布,主要用于训练和基准测试 AI 系统,尤其适用于从事低资源和代表性不足的印度语言研究的研究人员和开发者。
背景与开发
VAANI(在多种印度语言中意为“声音”或“言语”)由 Bangalore 的 Indian Institute of Science (IISc) 创建,旨在弥补印度语言语音数据资源方面的显著缺口。印度的语言生态是世界上最多样化的之一,涵盖数百种语言和数千种方言,然而现有的大多数语音数据集却只聚焦于少数资源较丰富的语言。VAANI 的开发目标,是通过在该国地理和语言高度多样化的地区开展大规模实地数据采集,扩大这一长期资源不足的语言领域的训练数据供给。
数据采集自约 110,000 名说话者,覆盖印度 22 个邦的 120 个地区,体现出一种有意识的努力:通过捕捉真实的区域和方言差异,而不是依赖受控的录音棚录音。该数据集涵盖 86 种语言和方言,既包括 Hindi、Tamil、Telugu、Bengali、Kannada 和 Malayalam 等主要法定语言,也包括众多区域变体和部落语言,如 Gondi、Santali、Kurukh、Wancho 和 Tenyidie 等。
数据集构成与关键特性
VAANI 总计包含约 21,500 小时的音频,使其成为聚焦印度语言的最大多语种语音语料库之一。其中有 835 小时已完成转写,为该集合中的一部分数据提供了真实文本标注。该数据集还纳入了多模态元素,使其用途超越传统语音任务。
该数据集的主要特点包括:
- 覆盖 86 种语言和方言,其中包括许多低资源和部落语言变体
- 约 110,000 名说话者参与,地理和人口背景多样
- 总计 21,500 小时音频,其中 835 小时为已转写语音
- 实地录音覆盖印度 22 个邦的 120 个地区
- 以 CC BY 4.0 许可发布,允许在署名条件下广泛复用
- 支持单模态和多模态研究应用
支持的任务与使用场景
VAANI 旨在为广泛的语音与语言处理任务提供资源。研究人员和开发者可将其用于训练和评估自动语音识别(ASR)系统、文本转语音(TTS)合成、说话人识别以及语言识别模型。该数据集还支持语音增强研究以及多模态大语言模型(LLMs)的开发。其广泛的语言覆盖范围,使其特别适合用于面向印度多样化语言环境运行的系统基准测试。
鉴于其中纳入了许多此前几乎没有或完全没有语音数据的低资源语言和方言,VAANI 对于致力于构建包容性语言技术的研究人员尤其具有价值。它为开发自动语音识别和自然语言处理工具奠定了基础,从而有望服务那些其语言长期缺席于主流 AI 发展之外的社区。
对印度语言技术的重要意义
VAANI 的规模和语言多样性,使其成为多语种语音研究领域中的一项重要贡献,尤其是在南亚语言背景下。通过记录部落、农村和区域社区的口语变体,并将其与更广泛使用的语言一并纳入,该数据集捕捉到了印度语言遗产中一个在计算资源中极少得到体现的维度。其开放许可便于学术机构、政府部门和产业研究人员使用,从而推动更具包容性和代表性的语音技术发展。