VAANI

Name: VAANI
Creator: Indian Institute of Science
License: https://creativecommons.org/licenses/by/4.0/

இணையதளத்தைப் பார்வையிடுங்கள்

உருவாக்கியது Indian Institute of Science

இணையதளத்தைப் பார்வையிடுங்கள்

21,500 hours CC-BY 4.0 Training அனைத்து மொழிகள்

வகைகள்

ஆடியோ & பேச்சு பல-மாதிரி

தீம்கள்

voice audionlp

VAANI என்பது இந்திய அறிவியல் கழகம் (IISc), பெங்களூரு உருவாக்கிய ஒரு பெரிய அளவிலான பலமொழி பேச்சுத் தரவுத்தொகுப்பு. இதில் சுமார் 21,500 மணிநேர ஆடியோ உள்ளது; இது 22 இந்திய மாநிலங்களில் உள்ள 120 மாவட்டங்களில் இருந்து சுமார் 110,000 பேச்சாளர்களிடமிருந்து சேகரிக்கப்பட்டது. இந்தியா முழுவதும் பேசப்படும் 86 மொழிகளையும் வழக்குமொழிகளையும் இது உள்ளடக்கியுள்ளது; இதில் முக்கிய அட்டவணைப்படுத்தப்பட்ட மொழிகளும், பல்வேறு பிராந்திய மற்றும் பழங்குடி வகைகளும் அடங்கும். மேலும், 835 மணிநேரம் உரையாக்கப்பட்ட பேச்சும் இதில் உள்ளது.

இந்தத் தரவுத்தொகுப்பு தானியங்கி பேச்சு அங்கீகாரம், உரையிலிருந்து குரல் உருவாக்கம், பேச்சாளர் அடையாளம் காணுதல், மொழி அடையாளம் காணுதல், பேச்சு மேம்படுத்தல், மற்றும் பலமாதிரி மொழி மாதிரி உருவாக்கம் போன்ற பல்வேறு பேச்சு மற்றும் மொழி பணிகளை ஆதரிக்க வடிவமைக்கப்பட்டுள்ளது. இது CC BY 4.0 உரிமத்தின் கீழ் வெளியிடப்பட்டுள்ளது; முதன்மையாக AI அமைப்புகளைப் பயிற்சி செய்யவும் மதிப்பீடு செய்யவும் பயன்படுத்தப்படுவதற்காக உருவாக்கப்பட்டுள்ளது. குறிப்பாக குறைந்த வளங்களைக் கொண்ட மற்றும் பிரதிநிதித்துவம் குறைவாக உள்ள இந்திய மொழிகளில் பணியாற்றும் ஆராய்ச்சியாளர்கள் மற்றும் உருவாக்குநர்களுக்கு இது மிகவும் பொருத்தமானதாகும்.

பின்னணி மற்றும் வளர்ச்சி

VAANI (பல இந்திய மொழிகளில் “குரல்” அல்லது “பேச்சு” என்று பொருள்படும்) இந்திய அறிவியல் கழகம் (IISc) பெங்களூரில் உருவாக்கப்பட்டது. இந்திய மொழிகளுக்கான பேச்சுத் தரவுத் தொகுப்புகளில் காணப்படும் குறிப்பிடத்தக்க இடைவெளியை சமாளிக்கும் முயற்சியின் ஒரு பகுதியாக இது உருவாக்கப்பட்டது. உலகிலேயே இந்தியாவின் மொழியியல் சூழல் மிகவும் பல்வகைமையான ஒன்றாகும்; இதில் நூற்றுக்கணக்கான மொழிகளும் ஆயிரக்கணக்கான வழக்குமொழிகளும் உள்ளன. ஆனால், ஏற்கனவே உள்ள பெரும்பாலான பேச்சுத் தரவுத் தொகுப்புகள் பெரும்பாலும் நன்கு வளம் பெற்ற சில மொழிகளையே மையமாகக் கொண்டுள்ளன. இந்த சேவை குறைவாக உள்ள மொழியியல் இடத்தை விரிவுபடுத்தும் நோக்கில், நாட்டின் புவியியல் மற்றும் மொழியியல் ரீதியாக வேறுபட்ட பகுதிகளில் பெரிய அளவிலான களத் தரவு சேகரிப்பை மேற்கொண்டு VAANI உருவாக்கப்பட்டது.

இந்தத் தரவு, இந்தியாவின் 22 மாநிலங்களில் உள்ள 120 மாவட்டங்களில் பரவிய சுமார் 110,000 பேச்சாளர்களிடமிருந்து சேகரிக்கப்பட்டது. கட்டுப்படுத்தப்பட்ட ஸ்டூடியோ பதிவுகளை நம்புவதற்குப் பதிலாக உண்மையான பிராந்திய மற்றும் வழக்குமொழி வேறுபாடுகளைப் பதிவு செய்யும் நோக்கமுள்ள முயற்சியை இது பிரதிபலிக்கிறது. இந்தத் தரவுத் தொகுப்பு 86 மொழிகளையும் வழக்குமொழிகளையும் உள்ளடக்கியது; இதில் ஹிந்தி, தமிழ், தெலுங்கு, வங்காளி, கன்னடம், மலையாளம் போன்ற முக்கிய அட்டவணை மொழிகள் மட்டுமின்றி, கோண்டி, சாந்தாலி, குருக், வான்சோ, டென்யிடி போன்ற பல்வேறு பிராந்திய வகைகளும் பழங்குடி மொழிகளும் அடங்கும்; மேலும் பலவும் உள்ளன.

தரவுத் தொகுப்பு அமைப்பு மற்றும் முக்கிய அம்சங்கள்

VAANI மொத்தமாக சுமார் 21,500 மணிநேர ஆடியோவை கொண்டுள்ளது; இதனால் இது இந்திய மொழிகளை மையமாகக் கொண்ட மிகப் பெரிய பன்மொழி பேச்சுத் தொகுப்புகளில் ஒன்றாகும். இதில் 835 மணிநேரங்கள் உரைமாற்றம் செய்யப்பட்டுள்ளன; இதன் மூலம் தொகுப்பின் ஒரு பகுதியுக்கான உண்மைத் தர உரை (ground-truth) குறிப்புகள் கிடைக்கின்றன. மேலும், இந்தத் தரவுத் தொகுப்பில் பன்மாதிரி (multimodal) கூறுகளும் சேர்க்கப்பட்டுள்ளதால், வழக்கமான பேச்சுப் பணிகளுக்கு அப்பாலும் பயன்படுத்தத் தயாராக உள்ளது.

தரவுத் தொகுப்பின் முக்கிய அம்சங்கள்:

86 மொழிகளையும் வழக்குமொழிகளையும் உள்ளடக்கியது; இதில் பல குறைந்த வளமுள்ள மற்றும் பழங்குடி வகைகளும் அடங்கும்
பல்வேறு புவியியல் மற்றும் மக்கள் தொகை பின்னணிகளிலிருந்து சுமார் 110,000 பேச்சாளர்களின் பங்களிப்பு
மொத்தம் 21,500 மணிநேர ஆடியோ; இதில் 835 மணிநேரங்கள் உரைமாற்றம் செய்யப்பட்ட பேச்சு
இந்தியாவின் 22 மாநிலங்களில் உள்ள 120 மாவட்டங்களைத் தாண்டிய களப் பதிவுகள்
CC BY 4.0 உரிமத்தின் கீழ் வெளியிடப்பட்டது; அடையாளப்படுத்தலுடன் பரந்த மறுபயன்பாட்டை அனுமதிக்கிறது
ஒற்றைமாதிரி மற்றும் பன்மாதிரி ஆராய்ச்சி பயன்பாடுகளுக்கு ஆதரவு

ஆதரிக்கப்படும் பணிகள் மற்றும் பயன்பாட்டு நிலைகள்

VAANI பல்வேறு பேச்சு மற்றும் மொழி செயலாக்க பணிகளுக்கான ஒரு வளமாகச் செயல்பட வடிவமைக்கப்பட்டுள்ளது. ஆராய்ச்சியாளர்களும் உருவாக்குநர்களும் இதைப் பயன்படுத்தி தானியங்கி பேச்சு அங்கீகாரம் (ASR) அமைப்புகளைப் பயிற்சி செய்து மதிப்பிடலாம்; உரையிலிருந்து பேச்சு (TTS) உருவாக்கம், பேச்சாளர் அடையாளம், மொழி அடையாளம் மாதிரிகள் ஆகியவற்றிற்கும் பயன்படுத்தலாம். இந்தத் தரவுத் தொகுப்பு பேச்சு மேம்படுத்தல் (speech enhancement) பணிகளையும், பன்மாதிரி பெரிய மொழி மாதிரிகள் (LLMs) உருவாக்கத்தையும் ஆதரிக்கிறது. மொழி கவரேஜின் பரந்த தன்மை, இந்தியாவின் பல்வகை மொழியியல் சூழலில் செயல்படத் திட்டமிடப்பட்ட அமைப்புகளை அளவிடும் (benchmarking) பணிகளுக்கு இதை மிகவும் பொருத்தமாக்குகிறது.

முன்னதாக மிகக் குறைவாக அல்லது எதுவும் இல்லாத பேச்சுத் தரவு உள்ள பல குறைந்த வளமுள்ள மொழிகளையும் வழக்குமொழிகளையும் சேர்த்துள்ளதால், உட்புகுத்தும் மொழித் தொழில்நுட்பங்களை உருவாக்க கவனம் செலுத்தும் ஆராய்ச்சியாளர்களுக்கு VAANI சிறப்பான மதிப்பைக் கொண்டுள்ளது. இது, வரலாற்றில் முக்கிய AI வளர்ச்சியில் இருந்து பெரும்பாலும் இல்லாமல் இருந்த மொழிகளைக் கொண்ட சமூகங்களுக்கு சேவை செய்யக்கூடிய ASR மற்றும் இயற்கை மொழி செயலாக்க கருவிகளை உருவாக்குவதற்கான அடித்தளத்தை வழங்குகிறது.

இந்திய மொழித் தொழில்நுட்பத்திற்கான முக்கியத்துவம்

VAANI-யின் அளவும் மொழியியல் பல்வகைமையும், குறிப்பாக தென் ஆசிய மொழிகளின் சூழலில், பன்மொழி பேச்சு ஆராய்ச்சி துறைக்கு குறிப்பிடத்தக்க பங்களிப்பாக அமைகிறது. பழங்குடி, கிராமப்புற, பிராந்திய சமூகங்களிலிருந்து பேசப்படும் வகைகளை, அதிகமாகப் பேசப்படும் மொழிகளுடன் சேர்த்து ஆவணப்படுத்துவதன் மூலம், கணினி வளங்களில் அரிதாக பிரதிநிதித்துவம் பெறும் இந்திய மொழியியல் பாரம்பரியத்தின் ஒரு பரிமாணத்தை இந்தத் தரவுத் தொகுப்பு பதிவு செய்கிறது. அதன் திறந்த உரிமம், உட்புகுத்தும் மற்றும் பிரதிநிதித்துவமான பேச்சுத் தொழில்நுட்பங்களை நோக்கி பணியாற்றும் கல்வி நிறுவனங்கள், அரசு அமைப்புகள், மற்றும் தொழில் துறை ஆராய்ச்சியாளர்கள் ஆகியோருக்கு பயன்படுத்த உதவுகிறது.

அறிக்கை