বিভাগসমূহ
থিমসমূহ
VAANI হলো একটি বৃহৎ পরিসরের বহুভাষিক বক্তৃতা ডেটাসেট, যা বেঙ্গালুরুর ইন্ডিয়ান ইনস্টিটিউট অব সায়েন্স (IISc) দ্বারা তৈরি করা হয়েছে। এতে প্রায় ২১,৫০০ ঘণ্টার অডিও রয়েছে, যা ভারতের ২২টি রাজ্যের ১২০টি জেলায় প্রায় ১১০,০০০ জন বক্তার কাছ থেকে সংগ্রহ করা হয়েছে। এটি ভারতের বিভিন্ন স্থানে কথিত ৮৬টি ভাষা ও উপভাষা কভার করে—যার মধ্যে প্রধান তফসিলভুক্ত ভাষাগুলোর পাশাপাশি অসংখ্য আঞ্চলিক ও আদিবাসী ধরনও রয়েছে—এবং এতে ৮৩৫ ঘণ্টার লিপিবদ্ধ বক্তৃতা অন্তর্ভুক্ত।
এই ডেটাসেটটি স্বয়ংক্রিয় বক্তৃতা স্বীকৃতি, টেক্সট-টু-স্পিচ সংশ্লেষণ, বক্তা শনাক্তকরণ, ভাষা শনাক্তকরণ, বক্তৃতা উন্নয়ন এবং বহুমাত্রিক (মাল্টিমোডাল) ভাষা মডেল উন্নয়নসহ বিভিন্ন ধরনের বক্তৃতা ও ভাষা-সম্পর্কিত কাজকে সমর্থন করার জন্য নকশা করা হয়েছে। CC BY 4.0 লাইসেন্সের অধীনে প্রকাশিত এই ডেটাসেটটি মূলত AI সিস্টেম প্রশিক্ষণ ও বেঞ্চমার্কিংয়ের জন্যই তৈরি করা হয়েছে; বিশেষভাবে এটি স্বল্প-সম্পদ ও কম প্রতিনিধিত্বশীল ভারতীয় ভাষাগুলোর ওপর কাজ করা গবেষক ও ডেভেলপারদের জন্য প্রাসঙ্গিক।
পটভূমি ও উন্নয়ন
VAANI (যার অর্থ হলো “ভয়েস” বা “বক্তব্য” — ভারতের একাধিক ভাষায়) তৈরি করেছে বেঙ্গালুরুর ইন্ডিয়ান ইনস্টিটিউট অব সায়েন্স (IISc)। এটি ভারতীয় ভাষাগুলোর জন্য বক্তৃতা-তথ্য সম্পদের উল্লেখযোগ্য ঘাটতি মোকাবিলের একটি প্রচেষ্টার অংশ হিসেবে তৈরি করা হয়। ভারতের ভাষাগত প্রেক্ষাপট বিশ্বের মধ্যে অন্যতম বৈচিত্র্যময়—এখানে শত শত ভাষা এবং হাজার হাজার উপভাষা রয়েছে, তবু বিদ্যমান অধিকাংশ বক্তৃতা ডেটাসেট মূলত তুলনামূলকভাবে ভালোভাবে সম্পদপ্রাপ্ত অল্প কিছু ভাষার ওপরই কেন্দ্রীভূত। এই অনুন্নত ভাষাগত পরিসরে প্রশিক্ষণ ডেটার প্রাপ্যতা বাড়ানোর জন্য VAANI তৈরি করা হয় দেশের ভৌগোলিক ও ভাষাগতভাবে বৈচিত্র্যময় অঞ্চলে বৃহৎ পরিসরে মাঠপর্যায়ের ডেটা সংগ্রহ পরিচালনার মাধ্যমে।
ডেটা সংগ্রহ করা হয়েছে প্রায় ১১০,০০০ বক্তার কাছ থেকে, যারা ভারতের ২২টি রাজ্যের ১২০টি জেলায় ছড়িয়ে ছিলেন। এটি নিয়ন্ত্রিত স্টুডিও রেকর্ডিংয়ের ওপর নির্ভর না করে বরং বাস্তব আঞ্চলিক ও উপভাষাগত বৈচিত্র্য ধরার একটি সচেতন প্রচেষ্টাকে প্রতিফলিত করে। ডেটাসেটটি ৮৬টি ভাষা ও উপভাষা জুড়ে বিস্তৃত—হিন্দি, তামিল, তেলুগু, বাংলা, কন্নড় এবং মালয়ালমের মতো প্রধান নির্ধারিত ভাষা থেকে শুরু করে গন্ডি, সাঁওতালি, কুরুখ, ওয়ানচো এবং টেনিডিয়ে সহ অসংখ্য আঞ্চলিক বৈচিত্র্য ও আদিবাসী ভাষা পর্যন্ত; আরও অনেকগুলোকেও অন্তর্ভুক্ত করা হয়েছে।
ডেটাসেটের গঠন ও মূল বৈশিষ্ট্য
VAANI মোটামুটি ২১,৫০০ ঘণ্টার অডিও নিয়ে গঠিত, যা ভারতীয় ভাষাকেন্দ্রিক বহুভাষিক বক্তৃতা কর্পাসগুলোর মধ্যে অন্যতম বৃহৎ। এর মধ্যে ৮৩৫ ঘণ্টা ট্রান্সক্রাইব করা হয়েছে, ফলে সংগ্রহের একটি অংশের জন্য সত্যতা-ভিত্তিক টেক্সট অ্যানোটেশন পাওয়া যায়। ডেটাসেটটিতে বহুমাত্রিক (মাল্টিমোডাল) উপাদানও অন্তর্ভুক্ত রয়েছে, যা এটিকে প্রচলিত বক্তৃতা-সংক্রান্ত কাজের বাইরে ব্যবহারের উপযোগী করে।
ডেটাসেটটির মূল বৈশিষ্ট্যগুলো হলো:
- ৮৬টি ভাষা ও উপভাষার কভারেজ, যার মধ্যে অনেক কম-সম্পদভিত্তিক এবং আদিবাসী বৈচিত্র্য অন্তর্ভুক্ত
- বিভিন্ন ভৌগোলিক ও জনতাত্ত্বিক পটভূমি থেকে প্রায় ১১০,০০০ বক্তার অবদান
- মোট ২১,৫০০ ঘণ্টার অডিও, যার মধ্যে ৮৩৫ ঘণ্টা ট্রান্সক্রাইব করা বক্তৃতা
- ভারতের ২২টি রাজ্যের ১২০টি জেলাজুড়ে মাঠপর্যায়ের রেকর্ডিং
- CC BY 4.0 লাইসেন্সের অধীনে প্রকাশিত, যা স্বীকৃতিসহ ব্যাপক পুনঃব্যবহারের অনুমতি দেয়
- এক-মাত্রিক (ইউনিমোডাল) এবং বহুমাত্রিক (মাল্টিমোডাল) গবেষণা—দুই ধরনের অ্যাপ্লিকেশনের সমর্থন
সমর্থিত কাজ ও ব্যবহারক্ষেত্র
VAANI তৈরি করা হয়েছে বক্তৃতা ও ভাষা প্রক্রিয়াকরণের বিস্তৃত পরিসরের কাজের জন্য একটি সম্পদ হিসেবে পরিবেশন করার লক্ষ্যে। গবেষক ও ডেভেলপাররা এটি ব্যবহার করতে পারেন স্বয়ংক্রিয় বক্তৃতা শনাক্তকরণ (ASR) সিস্টেম, টেক্সট-টু-স্পিচ (TTS) সংশ্লেষণ, বক্তা শনাক্তকরণ এবং ভাষা শনাক্তকরণ মডেল প্রশিক্ষণ ও মূল্যায়নের জন্য। ডেটাসেটটি বক্তৃতা উন্নয়ন (speech enhancement) সংক্রান্ত কাজ এবং বহুমাত্রিক বৃহৎ ভাষা মডেল (LLMs) উন্নয়নেও সহায়তা করে। ভাষা কভারেজের এই ব্যাপ্তি এটিকে বিশেষভাবে প্রাসঙ্গিক করে তোলে এমন সিস্টেমগুলোর বেঞ্চমার্কিংয়ের ক্ষেত্রে, যেগুলো ভারতের বৈচিত্র্যময় ভাষাগত পরিবেশে কাজ করার উদ্দেশ্যে তৈরি।
অনেক কম-সম্পদভিত্তিক ভাষা ও উপভাষা অন্তর্ভুক্ত করার কারণে, যেগুলোর জন্য পূর্বে খুব সামান্য বা কোনো বক্তৃতা ডেটা নেই, VAANI অন্তর্ভুক্তিমূলক ভাষা প্রযুক্তি গড়ে তোলার দিকে মনোনিবেশ করা গবেষকদের কাছে বিশেষ মূল্যবান। এটি এমন ASR এবং প্রাকৃতিক ভাষা প্রক্রিয়াকরণ টুল তৈরির ভিত্তি দেয়, যা এমন সম্প্রদায়গুলোর সেবা করতে পারে যাদের ভাষা ঐতিহাসিকভাবে মূলধারার AI উন্নয়নে অনুপস্থিত ছিল।
ভারতীয় ভাষা প্রযুক্তির জন্য তাৎপর্য
VAANI-এর স্কেল ও ভাষাগত বৈচিত্র্য এটিকে বহুভাষিক বক্তৃতা গবেষণার ক্ষেত্রে একটি উল্লেখযোগ্য অবদান হিসেবে তুলে ধরে—বিশেষ করে দক্ষিণ এশীয় ভাষাগুলোর প্রেক্ষাপটে। আদিবাসী, গ্রামীণ এবং আঞ্চলিক সম্প্রদায়গুলোর কথ্য বৈচিত্র্যকে তুলনামূলকভাবে বেশি প্রচলিত ভাষাগুলোর পাশাপাশি নথিভুক্ত করার মাধ্যমে, ডেটাসেটটি ভারতের ভাষাগত ঐতিহ্যের এমন একটি মাত্রা ধারণ করে যা কম্পিউটেশনাল সম্পদে খুব কমই প্রতিফলিত হয়। এর উন্মুক্ত লাইসেন্স একে একাডেমিক প্রতিষ্ঠান, সরকারি সংস্থা এবং শিল্পক্ষেত্রের গবেষকদের জন্য সহজলভ্য করে, যারা আরও অন্তর্ভুক্তিমূলক ও প্রতিনিধিত্বমূলক বক্তৃতা প্রযুক্তির দিকে কাজ করছেন।