வகைகள்
தீம்கள்
VAANI என்பது இந்திய அறிவியல் கழகம் (IISc), பெங்களூரு உருவாக்கிய ஒரு பெரிய அளவிலான பலமொழி பேச்சுத் தரவுத்தொகுப்பு. இதில் சுமார் 21,500 மணிநேர ஆடியோ உள்ளது; இது 22 இந்திய மாநிலங்களில் உள்ள 120 மாவட்டங்களில் இருந்து சுமார் 110,000 பேச்சாளர்களிடமிருந்து சேகரிக்கப்பட்டது. இந்தியா முழுவதும் பேசப்படும் 86 மொழிகளையும் வழக்குமொழிகளையும் இது உள்ளடக்கியுள்ளது; இதில் முக்கிய அட்டவணைப்படுத்தப்பட்ட மொழிகளும், பல்வேறு பிராந்திய மற்றும் பழங்குடி வகைகளும் அடங்கும். மேலும், 835 மணிநேரம் உரையாக்கப்பட்ட பேச்சும் இதில் உள்ளது.
இந்தத் தரவுத்தொகுப்பு தானியங்கி பேச்சு அங்கீகாரம், உரையிலிருந்து குரல் உருவாக்கம், பேச்சாளர் அடையாளம் காணுதல், மொழி அடையாளம் காணுதல், பேச்சு மேம்படுத்தல், மற்றும் பலமாதிரி மொழி மாதிரி உருவாக்கம் போன்ற பல்வேறு பேச்சு மற்றும் மொழி பணிகளை ஆதரிக்க வடிவமைக்கப்பட்டுள்ளது. இது CC BY 4.0 உரிமத்தின் கீழ் வெளியிடப்பட்டுள்ளது; முதன்மையாக AI அமைப்புகளைப் பயிற்சி செய்யவும் மதிப்பீடு செய்யவும் பயன்படுத்தப்படுவதற்காக உருவாக்கப்பட்டுள்ளது. குறிப்பாக குறைந்த வளங்களைக் கொண்ட மற்றும் பிரதிநிதித்துவம் குறைவாக உள்ள இந்திய மொழிகளில் பணியாற்றும் ஆராய்ச்சியாளர்கள் மற்றும் உருவாக்குநர்களுக்கு இது மிகவும் பொருத்தமானதாகும்.
பின்னணி மற்றும் வளர்ச்சி
VAANI (பல இந்திய மொழிகளில் “குரல்” அல்லது “பேச்சு” என்று பொருள்படும்) இந்திய அறிவியல் கழகம் (IISc) பெங்களூரில் உருவாக்கப்பட்டது. இந்திய மொழிகளுக்கான பேச்சுத் தரவுத் தொகுப்புகளில் காணப்படும் குறிப்பிடத்தக்க இடைவெளியை சமாளிக்கும் முயற்சியின் ஒரு பகுதியாக இது உருவாக்கப்பட்டது. உலகிலேயே இந்தியாவின் மொழியியல் சூழல் மிகவும் பல்வகைமையான ஒன்றாகும்; இதில் நூற்றுக்கணக்கான மொழிகளும் ஆயிரக்கணக்கான வழக்குமொழிகளும் உள்ளன. ஆனால், ஏற்கனவே உள்ள பெரும்பாலான பேச்சுத் தரவுத் தொகுப்புகள் பெரும்பாலும் நன்கு வளம் பெற்ற சில மொழிகளையே மையமாகக் கொண்டுள்ளன. இந்த சேவை குறைவாக உள்ள மொழியியல் இடத்தை விரிவுபடுத்தும் நோக்கில், நாட்டின் புவியியல் மற்றும் மொழியியல் ரீதியாக வேறுபட்ட பகுதிகளில் பெரிய அளவிலான களத் தரவு சேகரிப்பை மேற்கொண்டு VAANI உருவாக்கப்பட்டது.
இந்தத் தரவு, இந்தியாவின் 22 மாநிலங்களில் உள்ள 120 மாவட்டங்களில் பரவிய சுமார் 110,000 பேச்சாளர்களிடமிருந்து சேகரிக்கப்பட்டது. கட்டுப்படுத்தப்பட்ட ஸ்டூடியோ பதிவுகளை நம்புவதற்குப் பதிலாக உண்மையான பிராந்திய மற்றும் வழக்குமொழி வேறுபாடுகளைப் பதிவு செய்யும் நோக்கமுள்ள முயற்சியை இது பிரதிபலிக்கிறது. இந்தத் தரவுத் தொகுப்பு 86 மொழிகளையும் வழக்குமொழிகளையும் உள்ளடக்கியது; இதில் ஹிந்தி, தமிழ், தெலுங்கு, வங்காளி, கன்னடம், மலையாளம் போன்ற முக்கிய அட்டவணை மொழிகள் மட்டுமின்றி, கோண்டி, சாந்தாலி, குருக், வான்சோ, டென்யிடி போன்ற பல்வேறு பிராந்திய வகைகளும் பழங்குடி மொழிகளும் அடங்கும்; மேலும் பலவும் உள்ளன.
தரவுத் தொகுப்பு அமைப்பு மற்றும் முக்கிய அம்சங்கள்
VAANI மொத்தமாக சுமார் 21,500 மணிநேர ஆடியோவை கொண்டுள்ளது; இதனால் இது இந்திய மொழிகளை மையமாகக் கொண்ட மிகப் பெரிய பன்மொழி பேச்சுத் தொகுப்புகளில் ஒன்றாகும். இதில் 835 மணிநேரங்கள் உரைமாற்றம் செய்யப்பட்டுள்ளன; இதன் மூலம் தொகுப்பின் ஒரு பகுதியுக்கான உண்மைத் தர உரை (ground-truth) குறிப்புகள் கிடைக்கின்றன. மேலும், இந்தத் தரவுத் தொகுப்பில் பன்மாதிரி (multimodal) கூறுகளும் சேர்க்கப்பட்டுள்ளதால், வழக்கமான பேச்சுப் பணிகளுக்கு அப்பாலும் பயன்படுத்தத் தயாராக உள்ளது.
தரவுத் தொகுப்பின் முக்கிய அம்சங்கள்:
- 86 மொழிகளையும் வழக்குமொழிகளையும் உள்ளடக்கியது; இதில் பல குறைந்த வளமுள்ள மற்றும் பழங்குடி வகைகளும் அடங்கும்
- பல்வேறு புவியியல் மற்றும் மக்கள் தொகை பின்னணிகளிலிருந்து சுமார் 110,000 பேச்சாளர்களின் பங்களிப்பு
- மொத்தம் 21,500 மணிநேர ஆடியோ; இதில் 835 மணிநேரங்கள் உரைமாற்றம் செய்யப்பட்ட பேச்சு
- இந்தியாவின் 22 மாநிலங்களில் உள்ள 120 மாவட்டங்களைத் தாண்டிய களப் பதிவுகள்
- CC BY 4.0 உரிமத்தின் கீழ் வெளியிடப்பட்டது; அடையாளப்படுத்தலுடன் பரந்த மறுபயன்பாட்டை அனுமதிக்கிறது
- ஒற்றைமாதிரி மற்றும் பன்மாதிரி ஆராய்ச்சி பயன்பாடுகளுக்கு ஆதரவு
ஆதரிக்கப்படும் பணிகள் மற்றும் பயன்பாட்டு நிலைகள்
VAANI பல்வேறு பேச்சு மற்றும் மொழி செயலாக்க பணிகளுக்கான ஒரு வளமாகச் செயல்பட வடிவமைக்கப்பட்டுள்ளது. ஆராய்ச்சியாளர்களும் உருவாக்குநர்களும் இதைப் பயன்படுத்தி தானியங்கி பேச்சு அங்கீகாரம் (ASR) அமைப்புகளைப் பயிற்சி செய்து மதிப்பிடலாம்; உரையிலிருந்து பேச்சு (TTS) உருவாக்கம், பேச்சாளர் அடையாளம், மொழி அடையாளம் மாதிரிகள் ஆகியவற்றிற்கும் பயன்படுத்தலாம். இந்தத் தரவுத் தொகுப்பு பேச்சு மேம்படுத்தல் (speech enhancement) பணிகளையும், பன்மாதிரி பெரிய மொழி மாதிரிகள் (LLMs) உருவாக்கத்தையும் ஆதரிக்கிறது. மொழி கவரேஜின் பரந்த தன்மை, இந்தியாவின் பல்வகை மொழியியல் சூழலில் செயல்படத் திட்டமிடப்பட்ட அமைப்புகளை அளவிடும் (benchmarking) பணிகளுக்கு இதை மிகவும் பொருத்தமாக்குகிறது.
முன்னதாக மிகக் குறைவாக அல்லது எதுவும் இல்லாத பேச்சுத் தரவு உள்ள பல குறைந்த வளமுள்ள மொழிகளையும் வழக்குமொழிகளையும் சேர்த்துள்ளதால், உட்புகுத்தும் மொழித் தொழில்நுட்பங்களை உருவாக்க கவனம் செலுத்தும் ஆராய்ச்சியாளர்களுக்கு VAANI சிறப்பான மதிப்பைக் கொண்டுள்ளது. இது, வரலாற்றில் முக்கிய AI வளர்ச்சியில் இருந்து பெரும்பாலும் இல்லாமல் இருந்த மொழிகளைக் கொண்ட சமூகங்களுக்கு சேவை செய்யக்கூடிய ASR மற்றும் இயற்கை மொழி செயலாக்க கருவிகளை உருவாக்குவதற்கான அடித்தளத்தை வழங்குகிறது.
இந்திய மொழித் தொழில்நுட்பத்திற்கான முக்கியத்துவம்
VAANI-யின் அளவும் மொழியியல் பல்வகைமையும், குறிப்பாக தென் ஆசிய மொழிகளின் சூழலில், பன்மொழி பேச்சு ஆராய்ச்சி துறைக்கு குறிப்பிடத்தக்க பங்களிப்பாக அமைகிறது. பழங்குடி, கிராமப்புற, பிராந்திய சமூகங்களிலிருந்து பேசப்படும் வகைகளை, அதிகமாகப் பேசப்படும் மொழிகளுடன் சேர்த்து ஆவணப்படுத்துவதன் மூலம், கணினி வளங்களில் அரிதாக பிரதிநிதித்துவம் பெறும் இந்திய மொழியியல் பாரம்பரியத்தின் ஒரு பரிமாணத்தை இந்தத் தரவுத் தொகுப்பு பதிவு செய்கிறது. அதன் திறந்த உரிமம், உட்புகுத்தும் மற்றும் பிரதிநிதித்துவமான பேச்சுத் தொழில்நுட்பங்களை நோக்கி பணியாற்றும் கல்வி நிறுவனங்கள், அரசு அமைப்புகள், மற்றும் தொழில் துறை ஆராய்ச்சியாளர்கள் ஆகியோருக்கு பயன்படுத்த உதவுகிறது.