ଶ୍ରେଣୀଗୁଡିକ
ଥିମ୍ସ
VAANI হলো বেঙ্গালুরুর ইন্ডিয়ান ইনস্টিটিউট অব সায়েন্স (IISc) কর্তৃক উন্নত একটি বৃহৎ পরিসরের বহুভাষিক বক্তৃতা ডেটাসেট, যাতে প্রায় ২১,৫০০ ঘণ্টার অডিও রয়েছে। এই অডিও প্রায় ১১০,০০০ জন বক্তার কাছ থেকে সংগ্রহ করা হয়েছে, যা ভারতের ২২টি রাজ্যের ১২০টি জেলায় বিস্তৃত। এটি ভারতে প্রচলিত ৮৬টি ভাষা ও উপভাষা কভার করে—যার মধ্যে প্রধান তফসিলি ভাষাগুলোর পাশাপাশি অসংখ্য আঞ্চলিক ও আদিবাসী বৈচিত্র্যও অন্তর্ভুক্ত—এবং এতে ৮৩৫ ঘণ্টার লিপিবদ্ধ বক্তৃতা রয়েছে।
এই ডেটাসেটটি স্বয়ংক্রিয় বক্তৃতা স্বীকৃতি, টেক্সট-টু-স্পিচ সংশ্লেষণ, বক্তা শনাক্তকরণ, ভাষা শনাক্তকরণ, বক্তৃতা উন্নয়ন এবং বহুমাত্রিক (মাল্টিমোডাল) ভাষা মডেল উন্নয়নসহ বিভিন্ন ধরনের বক্তৃতা ও ভাষা-সম্পর্কিত কাজকে সমর্থন করার জন্য নকশা করা হয়েছে। CC BY 4.0 লাইসেন্সের অধীনে প্রকাশিত এই ডেটাসেটটি মূলত এআই সিস্টেম প্রশিক্ষণ ও বেঞ্চমার্কিংয়ের জন্যই উদ্দেশ্যপ্রণোদিত, বিশেষ করে স্বল্প-সম্পদ ও কম প্রতিনিধিত্বশীল ভারতীয় ভাষাগুলোর ওপর কাজ করা গবেষক ও ডেভেলপারদের জন্য এটি বিশেষভাবে প্রাসঙ্গিক।
পটভূমি ও উন্নয়ন
VAANI (ଯାହା କିଛି ଭାରତୀୟ ଭାଷାରେ “ସ୍ୱର” କିମ୍ବା “ବକ୍ତବ୍ୟ” ଅର୍ଥ କରେ) କଥାବାର୍ତ୍ତା ତଥ୍ୟ ସମ୍ପଦରେ ଭାରତୀୟ ଭାଷାଗୁଡ଼ିକ ପାଇଁ ଥିବା ଗୁରୁତ୍ୱପୂର୍ଣ୍ଣ ଅଭାବକୁ ଠିକ କରିବା ପ୍ରୟାସର ଅଂଶ ଭାବେ ବେଙ୍ଗାଲୁରୁରେ ଥିବା ଭାରତୀୟ ବିଜ୍ଞାନ ସଂସ୍ଥାନ (IISc) ଦ୍ୱାରା ସୃଷ୍ଟି କରାଯାଇଥିଲା। ଭାରତର ଭାଷାଗତ ପରିଦୃଶ୍ୟ ବିଶ୍ୱରେ ସବୁଠାରୁ ବିବିଧମୟ ମଧ୍ୟରୁ ଗୋଟିଏ—ଶତାଧିକ ଭାଷା ଏବଂ ହଜାର ହଜାର ଉପଭାଷାକୁ ଆବର୍ତ୍ତ କରେ—ତଥାପି ଅଧିକାଂଶ ଅବସ୍ଥିତ କଥନ ତଥ୍ୟସମୂହ କେବଳ ସୀମିତ ସଂଖ୍ୟକ ଭଲଭାବେ ସମ୍ପଦ ଥିବା ଭାଷାକୁ ନେଇ କେନ୍ଦ୍ରିତ। ଏହି ଅପର୍ଯ୍ୟାପ୍ତ ଭାଷାଗତ ସ୍ଥାନରେ ପ୍ରଶିକ୍ଷଣ ତଥ୍ୟର ଉପଲବ୍ଧତା ବଢ଼ାଇବା ପାଇଁ, ଦେଶର ଭୌଗୋଳିକ ଓ ଭାଷାଗତ ଭାବେ ବିବିଧ ଅଞ୍ଚଳଗୁଡ଼ିକରେ ବ୍ୟାପକ ପରିମାଣର କ୍ଷେତ୍ରସ୍ତରୀୟ ତଥ୍ୟ ସଂଗ୍ରହ କରି VAANI ଉନ୍ନତ କରାଯାଇଥିଲା।
ପ୍ରାୟ 110,000 ଜଣ ବକ୍ତାଙ୍କଠାରୁ, 22ଟି ଭାରତୀୟ ରାଜ୍ୟରେ 120ଟି ଜିଲ୍ଲା ଜୁଡ଼ି ସଂଗ୍ରହ କରାଯାଇଥିଲା—ନିୟନ୍ତ୍ରିତ ଷ୍ଟୁଡିଓ ରେକର୍ଡିଂରେ ଭରସା କରିବା ପରିବର୍ତ୍ତେ, ସତ୍ୟିକ ଅଞ୍ଚଳୀୟ ଓ ଉପଭାଷାଗତ ପରିବର୍ତ୍ତନକୁ ଧରିବା ପାଇଁ ଏହା ଏକ ସଚେତନ ପ୍ରୟାସକୁ ପ୍ରତିଫଳିତ କରେ। ଏହି ତଥ୍ୟସମୂହ 86ଟି ଭାଷା ଓ ଉପଭାଷାକୁ ଆବର୍ତ୍ତ କରେ—ହିନ୍ଦୀ, ତାମିଲ, ତେଲୁଗୁ, ବଙ୍ଗାଳୀ, କନ୍ନଡ଼, ଏବଂ ମଲୟାଳମ ପରି ପ୍ରମୁଖ ତାଲିକାଭୁକ୍ତ ଭାଷାଗୁଡ଼ିକରୁ ଆରମ୍ଭ କରି, ଗୋଣ୍ଡି, ସାନ୍ତାଳି, କୁରୁଖ, ୱାଞ୍ଚୋ, ଏବଂ ଟେନ୍ୟିଡିଏ ପରି ଅନେକ ଅଞ୍ଚଳୀୟ ପ୍ରକାର ଓ ଆଦିବାସୀ ଭାଷା ସହିତ—ଆଉ ଅନେକ ଅନ୍ୟାନ୍ୟକୁ ମଧ୍ୟ ଅନ୍ତର୍ଭୁକ୍ତ କରେ।
ତଥ୍ୟସମୂହର ଗଠନ ଓ ମୁଖ୍ୟ ବୈଶିଷ୍ଟ୍ୟ
VAANI ସମୁଦାୟ ଭାବେ ପ୍ରାୟ 21,500 ଘଣ୍ଟାର ଅଡିଓ ଧାରଣ କରେ, ଯାହା ଏହାକୁ ଭାରତୀୟ ଭାଷାକୁ କେନ୍ଦ୍ର କରିଥିବା ସବୁଠାରୁ ବଡ଼ ମଲ୍ଟିଲିଙ୍ଗୁଆଲ୍ କଥନ ସଂଗ୍ରହମାନଙ୍କ ମଧ୍ୟରୁ ଗୋଟିଏ କରେ। ଏଥିରୁ 835 ଘଣ୍ଟାର ତଥ୍ୟ ଟ୍ରାନ୍ସକ୍ରାଇବ୍ କରାଯାଇଛି, ଯାହା ସଂଗ୍ରହର ଏକ ଅଂଶ ପାଇଁ ଭୂମି-ସତ୍ୟ ପାଠ୍ୟ ଟୀକା (ground-truth text annotations) ଯୋଗାଇଥାଏ। ଏହି ତଥ୍ୟସମୂହ ମଲ୍ଟିମୋଡାଲ୍ ଉପାଦାନଗୁଡ଼ିକୁ ମଧ୍ୟ ସମ୍ମିଳିତ କରେ, ଯାହା ଏହାକୁ ପାରମ୍ପରିକ କଥନ କାର୍ଯ୍ୟଗୁଡ଼ିକ ପରିସୀମାରୁ ଆଗକୁ ବ୍ୟବହାର ପାଇଁ ଉପଯୋଗୀ କରେ।
ତଥ୍ୟସମୂହର ମୁଖ୍ୟ ବୈଶିଷ୍ଟ୍ୟଗୁଡ଼ିକ ହେଲା:
- 86ଟି ଭାଷା ଓ ଉପଭାଷାର କଭରେଜ୍, ଯେଉଁଥିରେ ଅନେକ ଅଳ୍ପ-ସମ୍ପଦ ଓ ଆଦିବାସୀ ପ୍ରକାର ଅନ୍ତର୍ଭୁକ୍ତ
- ବିଭିନ୍ନ ଭୌଗୋଳିକ ଓ ଜନସାଂଖ୍ୟିକ ପୃଷ୍ଠଭୂମିରୁ ପ୍ରାୟ 110,000 ଜଣ ବକ୍ତାଙ୍କ ଅବଦାନ
- ମୋଟ 21,500 ଘଣ୍ଟାର ଅଡିଓ, ଯେଉଁଥିରେ 835 ଘଣ୍ଟାର ଟ୍ରାନ୍ସକ୍ରାଇବ୍ ହୋଇଥିବା କଥନ ଅଛି
- 22ଟି ଭାରତୀୟ ରାଜ୍ୟରେ 120ଟି ଜିଲ୍ଲାକୁ ଆବର୍ତ୍ତ କରୁଥିବା କ୍ଷେତ୍ର ରେକର୍ଡିଂ
- CC BY 4.0 ଲାଇସେନ୍ସ ଅଧୀନରେ ମୁକ୍ତି, ଯାହା ଆଟ୍ରିବ୍ୟୁସନ୍ ସହିତ ବ୍ୟାପକ ପୁନଃବ୍ୟବହାରକୁ ଅନୁମତି ଦେଇଥାଏ
- ଏକମୋଡାଲ୍ ଓ ମଲ୍ଟିମୋଡାଲ୍—ଦୁଇ ପ୍ରକାରର ଗବେଷଣା ଆବେଦନ ପାଇଁ ସମର୍ଥନ
ସମର୍ଥିତ କାର୍ଯ୍ୟ ଓ ବ୍ୟବହାର ମାମଲା
VAANI କଥନ ଓ ଭାଷା ପ୍ରକ୍ରିୟାକରଣ ସମ୍ବନ୍ଧୀୟ ବିଭିନ୍ନ ପ୍ରକାରର କାର୍ଯ୍ୟ ପାଇଁ ଏକ ସମ୍ପଦ ଭାବେ କାମ ଦେବାକୁ ଉଦ୍ଦିଷ୍ଟ। ଗବେଷକ ଓ ବିକାଶକାରୀମାନେ ଏହାକୁ ସ୍ୱୟଂଚାଳିତ କଥନ ପରିଚୟ (ASR) ପ୍ରଣାଳୀ, ଟେକ୍ସଟ୍-ଟୁ-ସ୍ପିଚ୍ (TTS) ସିନ୍ଥେସିସ୍, ବକ୍ତା ପରିଚୟ, ଏବଂ ଭାଷା ପରିଚୟ ମଡେଲ୍ଗୁଡ଼ିକୁ ପ୍ରଶିକ୍ଷଣ ଓ ମୂଲ୍ୟାୟନ ପାଇଁ ବ୍ୟବହାର କରିପାରିବେ। ଏହି ତଥ୍ୟସମୂହ କଥନ ବୃଦ୍ଧିକରଣ (speech enhancement) ଉପରେ କାମ ଏବଂ ମଲ୍ଟିମୋଡାଲ୍ ବଡ଼ ଭାଷା ମଡେଲ୍ଗୁଡ଼ିକ (LLMs) ବିକାଶ ପାଇଁ ମଧ୍ୟ ସମର୍ଥନ କରେ। ଭାଷା କଭରେଜ୍ର ଏହି ବିସ୍ତୃତତା ଏହାକୁ ବିଶେଷଭାବେ ସେହି ପ୍ରଣାଳୀଗୁଡ଼ିକ ପାଇଁ ଉପଯୁକ୍ତ କରେ, ଯେଉଁମାନେ ଭାରତର ବିବିଧ ଭାଷାଗତ ପରିବେଶରେ କାମ କରିବାକୁ ଉଦ୍ଦିଷ୍ଟ।
ଅନେକ ଅଳ୍ପ-ସମ୍ପଦ ଭାଷା ଓ ଉପଭାଷାକୁ ଅନ୍ତର୍ଭୁକ୍ତ କରାଯାଇଥିବାରୁ—ଯେଉଁଥିପାଇଁ ପୂର୍ବରୁ ଅତ୍ୟଳ୍ପ କିମ୍ବା କୌଣସି କଥନ ତଥ୍ୟ ଉପଲବ୍ଧ ନାହିଁ—VAANI ସେହି ଗବେଷକମାନଙ୍କ ପାଇଁ ବିଶେଷ ମୂଲ୍ୟବାନ, ଯେଉଁମାନେ ସମାବେଶୀ ଭାଷା ପ୍ରଯୁକ୍ତି ବିକାଶ କରିବାରେ କେନ୍ଦ୍ରିତ। ଏହା ASR ଏବଂ ପ୍ରାକୃତିକ ଭାଷା ପ୍ରକ୍ରିୟାକରଣ ଉପକରଣ ବିକାଶ ପାଇଁ ଏକ ଭିତ୍ତି ଯୋଗାଇଥାଏ, ଯାହା ସେହି ସମୁଦାୟମାନଙ୍କୁ ସେବା ଦେଇପାରେ, ଯେଉଁମାନଙ୍କ ଭାଷାଗୁଡ଼ିକ ଐତିହାସିକ ଭାବେ ମୁଖ୍ୟଧାରାର AI ବିକାଶରୁ ଅନୁପସ୍ଥିତ ରହିଆସିଛି।
ଭାରତୀୟ ଭାଷା ପ୍ରଯୁକ୍ତି ପାଇଁ ଗୁରୁତ୍ୱ
VAANIର ପରିମାଣ ଓ ଭାଷାଗତ ବିବିଧତା ଏହାକୁ ମଲ୍ଟିଲିଙ୍ଗୁଆଲ୍ କଥନ ଗବେଷଣା କ୍ଷେତ୍ରରେ ଏକ ଉଲ୍ଲେଖନୀୟ ଅବଦାନ କରେ—ବିଶେଷକରି ଦକ୍ଷିଣ ଏସିଆର ଭାଷାଗୁଡ଼ିକର ପରିପ୍ରେକ୍ଷିତରେ। ଆଦିବାସୀ, ଗ୍ରାମୀଣ ଓ ଅଞ୍ଚଳୀୟ ସମୁଦାୟମାନଙ୍କର କଥିତ ପ୍ରକାରଗୁଡ଼ିକୁ ଅଧିକ ବ୍ୟାପକ ଭାବେ କଥିତ ଭାଷାଗୁଡ଼ିକ ସହିତ ଡକ୍ୟୁମେଣ୍ଟ କରି, ଏହି ତଥ୍ୟସମୂହ ଭାରତର ଭାଷାଗତ ଐତିହ୍ୟର ଏକ ମାତ୍ରାକୁ ଧରିଥାଏ, ଯାହା ଗଣନାତ୍ମକ ସମ୍ପଦରେ ଦୁର୍ଲଭ ଭାବେ ପ୍ରତିନିଧିତ୍ୱ ପାଏ। ଏହାର ଖୋଲା ଲାଇସେନ୍ସ ଏହାକୁ ଶିକ୍ଷାନୁଷ୍ଠାନ, ସରକାରୀ ସଂସ୍ଥା ଓ ଶିଳ୍ପ ଗବେଷକମାନଙ୍କ ପାଇଁ ସହଜ କରେ, ଯେଉଁମାନେ ଅଧିକ ସମାବେଶୀ ଓ ପ୍ରତିନିଧିମୂଳକ କଥନ ପ୍ରଯୁକ୍ତି ଦିଗରେ କାମ କରୁଛନ୍ତି।