২১,৫০০ hours CC-BY 4.0 Training সব ভাষা

থিমসমূহ

voice audionlp

VAANI হলো একটি বৃহৎ পরিসরের বহুভাষিক বক্তৃতা ডেটাসেট, যা বেঙ্গালুরুর ইন্ডিয়ান ইনস্টিটিউট অব সায়েন্স (IISc) দ্বারা তৈরি করা হয়েছে। এতে প্রায় ২১,৫০০ ঘণ্টার অডিও রয়েছে, যা ভারতের ২২টি রাজ্যের ১২০টি জেলায় প্রায় ১১০,০০০ জন বক্তার কাছ থেকে সংগ্রহ করা হয়েছে। এটি ভারতের বিভিন্ন স্থানে কথিত ৮৬টি ভাষা ও উপভাষা কভার করে—যার মধ্যে প্রধান তফসিলভুক্ত ভাষাগুলোর পাশাপাশি অসংখ্য আঞ্চলিক ও আদিবাসী ধরনও রয়েছে—এবং এতে ৮৩৫ ঘণ্টার লিপিবদ্ধ বক্তৃতা অন্তর্ভুক্ত।

এই ডেটাসেটটি স্বয়ংক্রিয় বক্তৃতা স্বীকৃতি, টেক্সট-টু-স্পিচ সংশ্লেষণ, বক্তা শনাক্তকরণ, ভাষা শনাক্তকরণ, বক্তৃতা উন্নয়ন এবং বহুমাত্রিক (মাল্টিমোডাল) ভাষা মডেল উন্নয়নসহ বিভিন্ন ধরনের বক্তৃতা ও ভাষা-সম্পর্কিত কাজকে সমর্থন করার জন্য নকশা করা হয়েছে। CC BY 4.0 লাইসেন্সের অধীনে প্রকাশিত এই ডেটাসেটটি মূলত AI সিস্টেম প্রশিক্ষণ ও বেঞ্চমার্কিংয়ের জন্যই তৈরি করা হয়েছে; বিশেষভাবে এটি স্বল্প-সম্পদ ও কম প্রতিনিধিত্বশীল ভারতীয় ভাষাগুলোর ওপর কাজ করা গবেষক ও ডেভেলপারদের জন্য প্রাসঙ্গিক।

পটভূমি ও উন্নয়ন

VAANI (যার অর্থ হলো “ভয়েস” বা “বক্তব্য” — ভারতের একাধিক ভাষায়) তৈরি করেছে বেঙ্গালুরুর ইন্ডিয়ান ইনস্টিটিউট অব সায়েন্স (IISc)। এটি ভারতীয় ভাষাগুলোর জন্য বক্তৃতা-তথ্য সম্পদের উল্লেখযোগ্য ঘাটতি মোকাবিলের একটি প্রচেষ্টার অংশ হিসেবে তৈরি করা হয়। ভারতের ভাষাগত প্রেক্ষাপট বিশ্বের মধ্যে অন্যতম বৈচিত্র্যময়—এখানে শত শত ভাষা এবং হাজার হাজার উপভাষা রয়েছে, তবু বিদ্যমান অধিকাংশ বক্তৃতা ডেটাসেট মূলত তুলনামূলকভাবে ভালোভাবে সম্পদপ্রাপ্ত অল্প কিছু ভাষার ওপরই কেন্দ্রীভূত। এই অনুন্নত ভাষাগত পরিসরে প্রশিক্ষণ ডেটার প্রাপ্যতা বাড়ানোর জন্য VAANI তৈরি করা হয় দেশের ভৌগোলিক ও ভাষাগতভাবে বৈচিত্র্যময় অঞ্চলে বৃহৎ পরিসরে মাঠপর্যায়ের ডেটা সংগ্রহ পরিচালনার মাধ্যমে।

ডেটা সংগ্রহ করা হয়েছে প্রায় ১১০,০০০ বক্তার কাছ থেকে, যারা ভারতের ২২টি রাজ্যের ১২০টি জেলায় ছড়িয়ে ছিলেন। এটি নিয়ন্ত্রিত স্টুডিও রেকর্ডিংয়ের ওপর নির্ভর না করে বরং বাস্তব আঞ্চলিক ও উপভাষাগত বৈচিত্র্য ধরার একটি সচেতন প্রচেষ্টাকে প্রতিফলিত করে। ডেটাসেটটি ৮৬টি ভাষা ও উপভাষা জুড়ে বিস্তৃত—হিন্দি, তামিল, তেলুগু, বাংলা, কন্নড় এবং মালয়ালমের মতো প্রধান নির্ধারিত ভাষা থেকে শুরু করে গন্ডি, সাঁওতালি, কুরুখ, ওয়ানচো এবং টেনিডিয়ে সহ অসংখ্য আঞ্চলিক বৈচিত্র্য ও আদিবাসী ভাষা পর্যন্ত; আরও অনেকগুলোকেও অন্তর্ভুক্ত করা হয়েছে।

ডেটাসেটের গঠন ও মূল বৈশিষ্ট্য

VAANI মোটামুটি ২১,৫০০ ঘণ্টার অডিও নিয়ে গঠিত, যা ভারতীয় ভাষাকেন্দ্রিক বহুভাষিক বক্তৃতা কর্পাসগুলোর মধ্যে অন্যতম বৃহৎ। এর মধ্যে ৮৩৫ ঘণ্টা ট্রান্সক্রাইব করা হয়েছে, ফলে সংগ্রহের একটি অংশের জন্য সত্যতা-ভিত্তিক টেক্সট অ্যানোটেশন পাওয়া যায়। ডেটাসেটটিতে বহুমাত্রিক (মাল্টিমোডাল) উপাদানও অন্তর্ভুক্ত রয়েছে, যা এটিকে প্রচলিত বক্তৃতা-সংক্রান্ত কাজের বাইরে ব্যবহারের উপযোগী করে।

ডেটাসেটটির মূল বৈশিষ্ট্যগুলো হলো:

  • ৮৬টি ভাষা ও উপভাষার কভারেজ, যার মধ্যে অনেক কম-সম্পদভিত্তিক এবং আদিবাসী বৈচিত্র্য অন্তর্ভুক্ত
  • বিভিন্ন ভৌগোলিক ও জনতাত্ত্বিক পটভূমি থেকে প্রায় ১১০,০০০ বক্তার অবদান
  • মোট ২১,৫০০ ঘণ্টার অডিও, যার মধ্যে ৮৩৫ ঘণ্টা ট্রান্সক্রাইব করা বক্তৃতা
  • ভারতের ২২টি রাজ্যের ১২০টি জেলাজুড়ে মাঠপর্যায়ের রেকর্ডিং
  • CC BY 4.0 লাইসেন্সের অধীনে প্রকাশিত, যা স্বীকৃতিসহ ব্যাপক পুনঃব্যবহারের অনুমতি দেয়
  • এক-মাত্রিক (ইউনিমোডাল) এবং বহুমাত্রিক (মাল্টিমোডাল) গবেষণা—দুই ধরনের অ্যাপ্লিকেশনের সমর্থন

সমর্থিত কাজ ও ব্যবহারক্ষেত্র

VAANI তৈরি করা হয়েছে বক্তৃতা ও ভাষা প্রক্রিয়াকরণের বিস্তৃত পরিসরের কাজের জন্য একটি সম্পদ হিসেবে পরিবেশন করার লক্ষ্যে। গবেষক ও ডেভেলপাররা এটি ব্যবহার করতে পারেন স্বয়ংক্রিয় বক্তৃতা শনাক্তকরণ (ASR) সিস্টেম, টেক্সট-টু-স্পিচ (TTS) সংশ্লেষণ, বক্তা শনাক্তকরণ এবং ভাষা শনাক্তকরণ মডেল প্রশিক্ষণ ও মূল্যায়নের জন্য। ডেটাসেটটি বক্তৃতা উন্নয়ন (speech enhancement) সংক্রান্ত কাজ এবং বহুমাত্রিক বৃহৎ ভাষা মডেল (LLMs) উন্নয়নেও সহায়তা করে। ভাষা কভারেজের এই ব্যাপ্তি এটিকে বিশেষভাবে প্রাসঙ্গিক করে তোলে এমন সিস্টেমগুলোর বেঞ্চমার্কিংয়ের ক্ষেত্রে, যেগুলো ভারতের বৈচিত্র্যময় ভাষাগত পরিবেশে কাজ করার উদ্দেশ্যে তৈরি।

অনেক কম-সম্পদভিত্তিক ভাষা ও উপভাষা অন্তর্ভুক্ত করার কারণে, যেগুলোর জন্য পূর্বে খুব সামান্য বা কোনো বক্তৃতা ডেটা নেই, VAANI অন্তর্ভুক্তিমূলক ভাষা প্রযুক্তি গড়ে তোলার দিকে মনোনিবেশ করা গবেষকদের কাছে বিশেষ মূল্যবান। এটি এমন ASR এবং প্রাকৃতিক ভাষা প্রক্রিয়াকরণ টুল তৈরির ভিত্তি দেয়, যা এমন সম্প্রদায়গুলোর সেবা করতে পারে যাদের ভাষা ঐতিহাসিকভাবে মূলধারার AI উন্নয়নে অনুপস্থিত ছিল।

ভারতীয় ভাষা প্রযুক্তির জন্য তাৎপর্য

VAANI-এর স্কেল ও ভাষাগত বৈচিত্র্য এটিকে বহুভাষিক বক্তৃতা গবেষণার ক্ষেত্রে একটি উল্লেখযোগ্য অবদান হিসেবে তুলে ধরে—বিশেষ করে দক্ষিণ এশীয় ভাষাগুলোর প্রেক্ষাপটে। আদিবাসী, গ্রামীণ এবং আঞ্চলিক সম্প্রদায়গুলোর কথ্য বৈচিত্র্যকে তুলনামূলকভাবে বেশি প্রচলিত ভাষাগুলোর পাশাপাশি নথিভুক্ত করার মাধ্যমে, ডেটাসেটটি ভারতের ভাষাগত ঐতিহ্যের এমন একটি মাত্রা ধারণ করে যা কম্পিউটেশনাল সম্পদে খুব কমই প্রতিফলিত হয়। এর উন্মুক্ত লাইসেন্স একে একাডেমিক প্রতিষ্ঠান, সরকারি সংস্থা এবং শিল্পক্ষেত্রের গবেষকদের জন্য সহজলভ্য করে, যারা আরও অন্তর্ভুক্তিমূলক ও প্রতিনিধিত্বমূলক বক্তৃতা প্রযুক্তির দিকে কাজ করছেন।

রিপোর্ট