বৰ্গসমূহ
থীমসমূহ
VAANI হৈছে ভাৰতীয় বিজ্ঞান প্ৰতিষ্ঠান (IISc), বেঙ্গালুৰ দ্বাৰা উন্নীত এক বৃহৎ পৰিসৰৰ বহুভাষিক বক্তৃতা ডেটাসেট, য'ত প্ৰায় ২১,৫০০ ঘণ্টা অডিঅ' ১১০,০০০ বক্তাৰ পৰা সংগৃহীত হৈছে যি ২২খন ভাৰতীয় ৰাজ্যৰ ১২০খন জিলাৰ পৰা আহিছে। এইটো ভাৰতৰ ৮৬খন ভাষা আৰু উপভাষাক আৱৰি লৈছে, য'ত মুখ্য সূচীকৃত ভাষাসমূহৰ লগতে বহুতো আঞ্চলিক আৰু জনজাতীয় বৈচিত্ৰ্য অন্তর্ভুক্ত আছে, আৰু ইয়াত ৮৩৫ ঘণ্টা লিখিত বক্তৃতা আছে।
এই ডেটাসেটটো স্বয়ংক্ৰিয় বক্তৃতা চিনাক্তকৰণ, পাঠ্য-ৰ পৰা-বক্তৃতা সংশ্লেষণ, বক্তা চিনাক্তকৰণ, ভাষা চিনাক্তকৰণ, বক্তৃতা উন্নতি, আৰু বহুমাত্ৰিক ভাষা মডেল উন্নয়নৰ দৰে বিভিন্ন বক্তৃতা আৰু ভাষা কাৰ্যৰ সমৰ্থন কৰিবলৈ ডিজাইন কৰা হৈছে। CC BY 4.0 লাইচেঞ্চৰ অধীনত মুক্ত কৰা হৈছে, এইটো মূলত AI প্ৰণালীসমূহৰ প্ৰশিক্ষণ আৰু বেঞ্চমাৰ্কিংৰ বাবে উদ্দেশ্য কৰা হৈছে, বিশেষকৈ কম সম্পদ আৰু কম প্ৰতিনিধিত্ব থকা ভাৰতীয় ভাষাসমূহৰ ওপৰত কাম কৰা গৱেষক আৰু বিকাশকাৰীসকলৰ বাবে প্ৰাসংগিক।
পটভূমি আৰু উন্নয়ন
VAANI (যাৰ অৰ্থ হৈছে "স্বৰ" বা "বক্তৃতা" কেইটামান ভাৰতীয় ভাষাত) ভাৰতীয় বিজ্ঞান প্ৰতিষ্ঠান (IISc)ৰ দ্বাৰা বেঙ্গালোৰত সৃষ্টি কৰা হৈছিল ভাৰতীয় ভাষাৰ বাবে বক্তৃতা তথ্যৰ উৎসৰ গুৰুত্বপূর্ণ অভাৱ পূৰণৰ বাবে। ভাৰতৰ ভাষাগত পৰিৱেশ বিশ্বৰ আটাইতকৈ বৈচিত্ৰ্যময়, শতাধিক ভাষা আৰু হাজাৰ হাজাৰ উপভাষা অন্তৰ্ভুক্ত, তথাপি বিদ্যমান বক্তৃতা ডেটাসেটৰ অধিকাংশে ভাল সম্পদযুক্ত ভাষাৰ এক সংকীর্ণ সেটৰ ওপৰত কেন্দ্ৰিত। VAANI এই অবহেলিত ভাষাগত স্থানৰ বাবে প্ৰশিক্ষণ তথ্যৰ উপলব্ধতা বৃদ্ধি কৰিবলৈ দেশৰ ভৌগোলিক আৰু ভাষাগত বৈচিত্ৰ্যযুক্ত অঞ্চলসমূহত বৃহৎ পৰিসৰৰ ক্ষেত্ৰৰ তথ্য সংগ্ৰহ কৰি উন্নয়ন কৰা হৈছিল।
প্ৰায় 110,000 জন বক্তাৰ পৰা তথ্য সংগ্ৰহ কৰা হৈছিল, যি 22 ভাৰতীয় ৰাজ্যৰ 120 জিলাত বিস্তৃত, সঁচা আঞ্চলিক আৰু উপভাষাগত বৈচিত্ৰ্য ধৰা পৰাৰ উদ্দেশ্যে। ডেটাসেট 86 ভাষা আৰু উপভাষা অন্তৰ্ভুক্ত, য'ত প্রধান সূচীভুক্ত ভাষাসমূহ যেনে হিন্দী, তামিল, তেলুগু, বাঙালি, কন্নড়, আৰু মালায়ালমৰ পৰা বহুতো আঞ্চলিক বৈচিত্র্য আৰু জনজাতীয় ভাষাসমূহ যেনে গণ্ডী, সান্তালি, কুৰুখ, ৱাঞ্চো, আৰু তেন্যিদিয়ে অন্তৰ্ভুক্ত।
ডেটাসেটৰ গঠন আৰু মুখ্য বৈশিষ্ট্যসমূহ
VAANI প্ৰায় 21,500 ঘণ্টাৰ অডিঅ'ৰ সমষ্টি, যি ভাৰতীয় ভাষাৰ ওপৰত কেন্দ্ৰিত আটাইতকৈ ডাঙৰ বহুভাষিক বক্তৃতা কৰ্পোৰাৰ অন্যতম। ইয়াৰ ভিতৰত, 835 ঘণ্টা লিখিত হৈছে, যিয়ে সংগ্ৰহৰ এটা উপসেটৰ বাবে মাটি-সত্য পাঠৰ মন্তব্য প্ৰদান কৰে। ডেটাসেটটোৱে বহু-মাত্ৰিক উপাদানসমূহো অন্তৰ্ভুক্ত কৰে, ইয়াক পৰম্পৰাগত বক্তৃতা কাৰ্যৰ বাহিৰে ব্যৱহাৰৰ বাবে উপযুক্ত কৰি তোলে।
ডেটাসেটৰ মুখ্য বৈশিষ্ট্যসমূহ অন্তৰ্ভুক্ত:
- 86 ভাষা আৰু উপভাষাৰ কভারেজ, বহুতো কম-সম্পদ আৰু জনজাতীয় বৈচিত্র্যসহ
- বিভিন্ন ভৌগোলিক আৰু জনসংখ্যাগত পটভূমিৰ পৰা প্ৰায় 110,000 জন বক্তাৰ অৱদান
- 21,500 ঘণ্টাৰ মুঠ অডিঅ'ৰ সৈতে 835 ঘণ্টাৰ লিখিত বক্তৃতা
- 22 ভাৰতীয় ৰাজ্যৰ 120 জিলাত ক্ষেত্ৰৰ ৰেকৰ্ডিং
- CC BY 4.0 লাইচেঞ্চৰ অধীনত মুক্ত, যিয়ে উল্লেখসহ ব্যাপক পুনঃব্যৱহাৰৰ অনুমতি দিয়ে
- একমাত্ৰ আৰু বহু-মাত্ৰিক গৱেষণা আবেদনসমূহৰ বাবে সমৰ্থন
সমৰ্থিত কাৰ্য আৰু ব্যৱহাৰ ক্ষেত্ৰসমূহ
VAANI বিভিন্ন বক্তৃতা আৰু ভাষা প্ৰক্ৰিয়া কাৰ্যৰ বাবে উৎস হিচাপে সেৱা দিবলৈ ডিজাইন কৰা হৈছে। গৱেষক আৰু বিকাশকাৰীসকলে ইয়াক স্বয়ংক্ৰিয় বক্তৃতা চিনাক্তকৰণ (ASR) প্ৰণালী, পাঠ-ৰ পৰা-স্বৰ (TTS) সংশ্লেষণ, বক্তা চিনাক্তকৰণ, আৰু ভাষা চিনাক্তকৰণ মডেলৰ বাবে প্ৰশিক্ষণ আৰু মূল্যায়ন কৰিবলৈ ব্যৱহাৰ কৰিব পাৰে। ডেটাসেটটোৱে বক্তৃতা উন্নতি আৰু বহু-মাত্ৰিক বৃহৎ ভাষা মডেল (LLMs)ৰ উন্নয়নৰ ওপৰত কাম কৰাতো সমৰ্থন কৰে। ইয়াৰ ভাষাৰ কভারেজৰ বিস্তৃতি ভাৰতৰ বৈচিত্ৰ্যময় ভাষাগত পৰিৱেশৰ ভিতৰত কাৰ্যক্ষমতাৰ বাবে বিশেষভাৱে প্ৰাসংগিক।
অধিকাংশ কম-সম্পদযুক্ত ভাষা আৰু উপভাষাসমূহ অন্তৰ্ভুক্ত কৰাৰ বাবে যাৰ বাবে অলপ বা কোনো পূৰ্বৰ বক্তৃতা তথ্য নাই, VAANI অন্তর্ভুক্ত ভাষা প্ৰযুক্তি নিৰ্মাণৰ ওপৰত কেন্দ্ৰিত গৱেষকসকলৰ বাবে বিশেষ মূল্যবান। ই ASR আৰু প্ৰাকৃতিক ভাষা প্ৰক্ৰিয়া টুলসমূহৰ উন্নয়নৰ বাবে এটা আধাৰ প্ৰদান কৰে যিয়ে সেই সম্প্ৰদায়সমূহৰ সেৱা কৰিব পাৰে যাৰ ভাষাসমূহ ঐতিহাসিকভাৱে মূলধাৰাৰ AI উন্নয়নৰ পৰা অনুপস্থিত।
ভাৰতীয় ভাষা প্ৰযুক্তিৰ বাবে গুৰুত্ব
VAANIৰ পৰিসৰ আৰু ভাষাগত বৈচিত্ৰ্য এক বহুভাষিক বক্তৃতা গৱেষণাৰ ক্ষেত্ৰত উল্লেখযোগ্য অৱদান, বিশেষকৈ দক্ষিণ এচিয়াৰ ভাষাসমূহৰ পৰিপ্ৰেক্ষিতত। জনজাতীয়, গ্ৰাম্য, আৰু আঞ্চলিক সম্প্ৰদায়ৰ পৰা বক্তৃতা কৰা বৈচিত্র্যসমূহ নথিভুক্ত কৰি অধিক প্ৰচলিত ভাষাসমূহৰ সৈতে, ডেটাসেটটোৱে ভাৰতৰ ভাষাগত ঐতিহ্যৰ এক দিশ ধৰা পৰে যি কম্পিউটাৰ উৎসসমূহত বেছি প্ৰতিনিধিত্ব নকৰা। ইয়াৰ খোলা লাইচেঞ্চে একাডেমিক প্ৰতিষ্ঠান, চৰকাৰী সংস্থা, আৰু অধিক অন্তর্ভুক্ত আৰু প্ৰতিনিধিত্বমূলক বক্তৃতা প্ৰযুক্তিৰ বাবে কাম কৰা উদ্যোগৰ গৱেষকসকলৰ দ্বাৰা ব্যৱহাৰ সহজ কৰে।