Name: VAANI
Creator: Indian Institute of Science
License: https://creativecommons.org/licenses/by/4.0/

배경 및 개발

VAANI(여러 인도 언어에서 "목소리" 또는 "말"을 의미)는 인도 언어를 위한 음성 데이터 자원의 상당한 격차를 해소하기 위한 노력의 일환으로 Bangalore의 Indian Institute of Science (IISc)에서 개발되었다. 인도의 언어 환경은 세계에서 가장 다양한 축에 속하며, 수백 개의 언어와 수천 개의 방언을 포함하고 있다. 그러나 기존 음성 데이터셋의 대부분은 자원이 풍부한 소수의 언어에 집중되어 있다. VAANI는 국가 전역의 지리적·언어적으로 다양한 지역에서 대규모 현장 데이터 수집을 수행함으로써, 이러한 소외된 언어 영역을 위한 학습 데이터의 가용성을 확대하기 위해 개발되었다.

데이터는 통제된 스튜디오 녹음에 의존하기보다 실제 지역 및 방언 변이를 포착하려는 의도적인 노력의 일환으로, 인도 22개 주 120개 지역에 걸쳐 분포한 약 110,000명의 화자로부터 수집되었다. 이 데이터셋은 Hindi, Tamil, Telugu, Bengali, Kannada, Malayalam과 같은 주요 지정 언어부터 Gondi, Santali, Kurukh, Wancho, Tenyidie를 포함한 수많은 지역 변종 및 부족 언어에 이르기까지, 총 86개의 언어와 방언을 아우른다.

데이터셋 구성 및 주요 특징

VAANI는 총 약 21,500시간의 오디오로 구성되어 있으며, 인도 언어에 초점을 맞춘 가장 큰 다국어 음성 코퍼스 중 하나이다. 이 중 835시간은 전사되어 있어, 컬렉션의 일부에 대해 정답 텍스트 주석을 제공한다. 또한 이 데이터셋은 멀티모달 요소도 포함하고 있어, 기존의 음성 작업을 넘어선 활용이 가능하다.

이 데이터셋의 주요 특징은 다음과 같다:

많은 저자원 및 부족 언어 변종을 포함한 86개 언어 및 방언 지원
다양한 지리적·인구통계학적 배경을 지닌 약 110,000명의 화자 참여
총 21,500시간의 오디오와 그중 835시간의 전사 음성
인도 22개 주 120개 지역에 걸친 현장 녹음
CC BY 4.0 라이선스로 공개되어, 출처 표기를 조건으로 폭넓은 재사용 허용
유니모달 및 멀티모달 연구 응용 모두 지원

지원 작업 및 활용 사례

VAANI는 광범위한 음성 및 언어 처리 작업을 위한 자원으로 활용되도록 설계되었다. 연구자와 개발자는 이를 자동 음성 인식(ASR) 시스템, 텍스트 음성 변환(TTS), 화자 식별, 언어 식별 모델의 학습 및 평가에 사용할 수 있다. 이 데이터셋은 또한 음성 향상과 멀티모달 대규모 언어 모델(LLMs) 개발도 지원한다. 폭넓은 언어 범위를 포괄하고 있어, 인도의 다양한 언어 환경 전반에서 작동하도록 설계된 시스템의 벤치마킹에 특히 적합하다.

기존 음성 데이터가 거의 없거나 전혀 없는 많은 저자원 언어와 방언이 포함되어 있다는 점에서, VAANI는 포용적인 언어 기술 구축에 집중하는 연구자들에게 특히 큰 가치를 지닌다. 이는 역사적으로 주류 AI 개발에서 배제되어 온 공동체의 언어를 지원할 수 있는 ASR 및 자연어 처리 도구 개발의 기반을 제공한다.

인도 언어 기술에 대한 의의

VAANI의 규모와 언어적 다양성은 특히 남아시아 언어 맥락에서 다국어 음성 연구 분야에 주목할 만한 기여를 한다. 이 데이터셋은 더 널리 사용되는 언어와 함께 부족, 농촌, 지역 공동체의 구어 변종을 기록함으로써, 계산 자원에서 좀처럼 반영되지 않는 인도의 언어 유산의 한 측면을 포착한다. 개방형 라이선스는 보다 포용적이고 대표성 있는 음성 기술을 목표로 하는 학술 기관, 정부 기관, 산업계 연구자들의 활용을 촉진한다.

VAANI

카테고리

테마

배경 및 개발

데이터셋 구성 및 주요 특징

지원 작업 및 활용 사례

인도 언어 기술에 대한 의의