테마
VAANI는 Indian Institute of Science (IISc), Bangalore에서 개발한 대규모 다국어 음성 데이터셋으로, 인도 22개 주의 120개 지역에 걸쳐 약 11만 명의 화자로부터 수집한 약 21,500시간의 오디오를 포함하고 있습니다. 이 데이터셋은 인도 전역에서 사용되는 86개 언어와 방언을 포괄하며, 주요 지정 언어뿐 아니라 다양한 지역 및 부족 언어 변종도 포함하고 있고, 이 중 835시간 분량의 음성에는 전사가 제공됩니다.
이 데이터셋은 자동 음성 인식, 텍스트 음성 변환, 화자 식별, 언어 식별, 음성 향상, 멀티모달 언어 모델 개발 등 다양한 음성 및 언어 과제를 지원하도록 설계되었습니다. CC BY 4.0 라이선스로 공개되었으며, 주로 AI 시스템의 학습과 벤치마킹을 목적으로 하고 있고, 특히 저자원 및 대표성이 낮은 인도 언어를 연구하는 연구자와 개발자에게 큰 관련성이 있습니다.
배경 및 개발
VAANI(여러 인도 언어에서 "목소리" 또는 "말"을 의미)는 인도 언어를 위한 음성 데이터 자원의 상당한 격차를 해소하기 위한 노력의 일환으로 Bangalore의 Indian Institute of Science (IISc)에서 개발되었다. 인도의 언어 환경은 세계에서 가장 다양한 축에 속하며, 수백 개의 언어와 수천 개의 방언을 포함하고 있다. 그러나 기존 음성 데이터셋의 대부분은 자원이 풍부한 소수의 언어에 집중되어 있다. VAANI는 국가 전역의 지리적·언어적으로 다양한 지역에서 대규모 현장 데이터 수집을 수행함으로써, 이러한 소외된 언어 영역을 위한 학습 데이터의 가용성을 확대하기 위해 개발되었다.
데이터는 통제된 스튜디오 녹음에 의존하기보다 실제 지역 및 방언 변이를 포착하려는 의도적인 노력의 일환으로, 인도 22개 주 120개 지역에 걸쳐 분포한 약 110,000명의 화자로부터 수집되었다. 이 데이터셋은 Hindi, Tamil, Telugu, Bengali, Kannada, Malayalam과 같은 주요 지정 언어부터 Gondi, Santali, Kurukh, Wancho, Tenyidie를 포함한 수많은 지역 변종 및 부족 언어에 이르기까지, 총 86개의 언어와 방언을 아우른다.
데이터셋 구성 및 주요 특징
VAANI는 총 약 21,500시간의 오디오로 구성되어 있으며, 인도 언어에 초점을 맞춘 가장 큰 다국어 음성 코퍼스 중 하나이다. 이 중 835시간은 전사되어 있어, 컬렉션의 일부에 대해 정답 텍스트 주석을 제공한다. 또한 이 데이터셋은 멀티모달 요소도 포함하고 있어, 기존의 음성 작업을 넘어선 활용이 가능하다.
이 데이터셋의 주요 특징은 다음과 같다:
- 많은 저자원 및 부족 언어 변종을 포함한 86개 언어 및 방언 지원
- 다양한 지리적·인구통계학적 배경을 지닌 약 110,000명의 화자 참여
- 총 21,500시간의 오디오와 그중 835시간의 전사 음성
- 인도 22개 주 120개 지역에 걸친 현장 녹음
- CC BY 4.0 라이선스로 공개되어, 출처 표기를 조건으로 폭넓은 재사용 허용
- 유니모달 및 멀티모달 연구 응용 모두 지원
지원 작업 및 활용 사례
VAANI는 광범위한 음성 및 언어 처리 작업을 위한 자원으로 활용되도록 설계되었다. 연구자와 개발자는 이를 자동 음성 인식(ASR) 시스템, 텍스트 음성 변환(TTS), 화자 식별, 언어 식별 모델의 학습 및 평가에 사용할 수 있다. 이 데이터셋은 또한 음성 향상과 멀티모달 대규모 언어 모델(LLMs) 개발도 지원한다. 폭넓은 언어 범위를 포괄하고 있어, 인도의 다양한 언어 환경 전반에서 작동하도록 설계된 시스템의 벤치마킹에 특히 적합하다.
기존 음성 데이터가 거의 없거나 전혀 없는 많은 저자원 언어와 방언이 포함되어 있다는 점에서, VAANI는 포용적인 언어 기술 구축에 집중하는 연구자들에게 특히 큰 가치를 지닌다. 이는 역사적으로 주류 AI 개발에서 배제되어 온 공동체의 언어를 지원할 수 있는 ASR 및 자연어 처리 도구 개발의 기반을 제공한다.
인도 언어 기술에 대한 의의
VAANI의 규모와 언어적 다양성은 특히 남아시아 언어 맥락에서 다국어 음성 연구 분야에 주목할 만한 기여를 한다. 이 데이터셋은 더 널리 사용되는 언어와 함께 부족, 농촌, 지역 공동체의 구어 변종을 기록함으로써, 계산 자원에서 좀처럼 반영되지 않는 인도의 언어 유산의 한 측면을 포착한다. 개방형 라이선스는 보다 포용적이고 대표성 있는 음성 기술을 목표로 하는 학술 기관, 정부 기관, 산업계 연구자들의 활용을 촉진한다.