21,500 hours CC-BY 4.0 Training 所有語言

主題

voice audionlp

VAANI 是由 Indian Institute of Science (IISc), Bangalore 開發的大規模多語語音資料集,包含約 21,500 小時的音訊,資料蒐集自印度 22 個邦、120 個地區約 110,000 名說話者。它涵蓋印度各地使用的 86 種語言與方言,包括主要的法定語言,以及眾多區域性與部落語言變體,其中有 835 小時為已轉錄語音。

該資料集旨在支援多種語音與語言任務,包括自動語音辨識、文字轉語音合成、說話者識別、語言識別、語音增強,以及多模態語言模型開發。它以 CC BY 4.0 授權釋出,主要用於訓練與基準測試 AI 系統,對於從事低資源與代表性不足的印度語言研究與開發的研究人員和開發者尤其具有重要價值。

背景與發展

VAANI(在多種印度語言中意為「聲音」或「言語」)由位於 Bangalore 的 Indian Institute of Science (IISc) 建立,作為彌補印度語言語音資料資源重大缺口之努力的一部分。印度的語言版圖是全球最多樣化的之一,涵蓋數百種語言與數千種方言,然而現有的大多數語音資料集卻集中於少數資源較豐富的語言。VAANI 的開發目的,是透過在全國地理與語言皆高度多樣的地區進行大規模實地資料蒐集,擴充這個長期資源不足之語言領域的訓練資料可用性。

資料蒐集自約 110,000 名說話者,分布於 22 個印度邦的 120 個地區,這反映出其有意捕捉真實的區域與方言差異,而非依賴受控的錄音室錄音。該資料集涵蓋 86 種語言與方言,從 Hindi、Tamil、Telugu、Bengali、Kannada 與 Malayalam 等主要法定語言,到眾多地方變體與部落語言,包括 Gondi、Santali、Kurukh、Wancho 與 Tenyidie 等等。

資料集組成與主要特點

VAANI 總計包含約 21,500 小時的音訊,使其成為聚焦於印度語言的最大型多語語音語料庫之一。其中有 835 小時已完成轉寫,為資料集中的部分內容提供了真實標註文字。該資料集也納入了多模態元素,使其用途不僅限於傳統語音任務。

資料集的主要特徵包括:

  • 涵蓋 86 種語言與方言,包括許多低資源語言與部落語言變體
  • 約有 110,000 名說話者參與,來自多元的地理與人口背景
  • 總計 21,500 小時音訊,其中 835 小時為已轉寫語音
  • 實地錄音橫跨 22 個印度邦的 120 個地區
  • 以 CC BY 4.0 授權釋出,允許在標明出處的前提下廣泛再利用
  • 支援單模態與多模態研究應用

支援的任務與使用案例

VAANI 的設計宗旨,是作為廣泛語音與語言處理任務的資源。研究人員與開發者可將其用於訓練與評估自動語音辨識(ASR)系統、文字轉語音(TTS)合成、說話者辨識,以及語言辨識模型。該資料集也支援語音增強以及多模態大型語言模型(LLMs)的開發。其廣泛的語言涵蓋範圍,使其特別適合用於為預期在印度多元語言環境中運作的系統進行基準測試。

鑑於其中納入了許多幾乎沒有或完全沒有既有語音資料的低資源語言與方言,VAANI 對於致力於建構包容性語言技術的研究人員而言尤其具有價值。它為開發 ASR 與自然語言處理工具奠定了基礎,而這些工具有望服務那些其語言長期缺席於主流 AI 發展之外的社群。

對印度語言技術的重要性

VAANI 的規模與語言多樣性,使其成為多語語音研究領域中的一項重要貢獻,尤其是在南亞語言的脈絡下。透過記錄部落、鄉村與地方社群的口語變體,並將其與較廣泛使用的語言一併納入,該資料集捕捉了印度語言遺產中一個在計算資源中極少被呈現的面向。其開放授權有助於學術機構、政府單位與產業研究人員使用,推動更具包容性與代表性的語音技術發展。

報告