پس منظر ۽ ترقي

VAANI (جنهن جي معنيٰ آهي “آواز” يا “تقرير” ڪيترن ئي هندستاني ٻولين ۾) بنگلور ۾ انڊين انسٽيٽيوٽ آف سائنس (IISc) پاران تيار ڪئي وئي، جيئن هندستاني ٻولين لاءِ تقرير جي ڊيٽا وسيلن ۾ موجود وڏي کوٽ کي پورو ڪرڻ جي ڪوشش جو حصو هجي. هندستان جو لساني منظرنامو دنيا ۾ سڀ کان وڌيڪ متنوع آهي، جنهن ۾ سوين ٻوليون ۽ هزارين لهجا شامل آهن، پر موجوده اڪثر تقريرن جا ڊيٽا سيٽ محدود تعداد جي چڱيءَ طرح وسيلن سان ڀرپور ٻولين تي ڌيان ڏين ٿا. VAANI کي هن اڻپوري لساني جاءِ لاءِ تربيت واري ڊيٽا جي دستيابي وڌائڻ خاطر تيار ڪيو ويو، جنهن لاءِ ملڪ جي جاگرافيائي ۽ لساني لحاظ کان مختلف علائقن ۾ وڏي پيماني تي فيلڊ ڊيٽا گڏ ڪئي وئي.

ڊيٽا تقريباً 110,000 ڳالهائيندڙن کان گڏ ڪئي وئي، جيڪي 22 هندستاني رياستن ۾ 120 ضلعن ۾ پکڙيل هئا. هيءَ هڪ ارادي واري ڪوشش هئي ته ڪنٽرول ٿيل اسٽوڊيو رڪارڊنگ تي ڀروسو ڪرڻ بدران حقيقي علائقائي ۽ لهجائي تبديلي کي پڪڙيو وڃي. ڊيٽا سيٽ 86 ٻولين ۽ لهجن تي مشتمل آهي، جن ۾ وڏين شيڊيولڊ ٻولين جهڙوڪ هندي، تامل، تيلگو، بنگالي، ڪناڊا، ۽ مليالم کان وٺي ڪيترين ئي علائقائي قسمن ۽ قبائلي ٻولين تائين شامل آهن، جن ۾ گونڊي، سنتالي، ڪوروک، وانچو، ۽ ٽينيديي شامل آهن، ۽ ان کان علاوه ٻيون به ڪيتريون ئي.

ڊيٽا سيٽ جي جوڙجڪ ۽ اهم خاصيتون

VAANI مجموعي طور تقريباً 21,500 ڪلاڪن جي آڊيو تي مشتمل آهي، جنهن ڪري هي هندستاني ٻولين تي ڌيان ڏيندڙ سڀ کان وڏن گهڻ-زباني تقريرن جي ڪورپس مان هڪ آهي. ان مان 835 ڪلاڪ ٽرانسڪرائب ڪيا ويا آهن، جيڪي مجموعي جي هڪ حصي لاءِ سچائيءَ تي ٻڌل متن جي تشريحون (ground-truth text annotations) مهيا ڪن ٿيون. ڊيٽا سيٽ ۾ ملٽي موڊل عنصر به شامل آهن، جنهن ڪري اهو روايتي تقريرن جي ڪمن کان ٻاهر استعمال لاءِ موزون بڻجي ٿو.

ڊيٽا سيٽ جون اهم خاصيتون هي آهن:

86 ٻولين ۽ لهجن جو احاطو، جن ۾ ڪيترائي گهٽ وسيلن وارا ۽ قبائلي قسم شامل آهن
تقريباً 110,000 ڳالهائيندڙن جون حصيداري، جيڪي مختلف جاگرافيائي ۽ آباديائي پس منظرن مان آهن
ڪل 21,500 ڪلاڪ آڊيو، جن مان 835 ڪلاڪ ٽرانسڪرائب ٿيل تقرير تي مشتمل آهن
120 ضلعن ۾ 22 هندستاني رياستن تائين پکڙيل فيلڊ رڪارڊنگون
CC BY 4.0 لائسنس تحت جاري ڪيو ويو، جنهن سان انتساب (attribution) سان وسيع ٻيهر استعمال جي اجازت ملي ٿي
ٻئي يونيموڊل ۽ ملٽي موڊل تحقيقي ايپليڪيشنن لاءِ سهڪار

سهڪاريل ڪم ۽ استعمال جا ڪيس

VAANI کي مختلف قسمن جي تقرير ۽ ٻولي پروسيسنگ ڪمن لاءِ هڪ وسيلِي طور تيار ڪيو ويو آهي. محقق ۽ ڊولپر ان کي خودڪار تقرير جي سڃاڻپ (ASR) سسٽمن جي تربيت ۽ جائزي لاءِ، ٽيڪسٽ کان تقرير (TTS) جي synthesis لاءِ، ڳالهائيندڙ جي سڃاڻپ، ۽ ٻولي جي سڃاڻپ وارن ماڊلن لاءِ استعمال ڪري سگهن ٿا. ڊيٽا سيٽ تقرير جي واڌاري (speech enhancement) تي ڪم ۽ ملٽي موڊل وڏي ٻوليءَ وارن ماڊلن (LLMs) جي ترقي کي به سهارو ڏئي ٿو. ٻولين جي وسيع احاطي سبب هي خاص طور تي انهن سسٽمن لاءِ لاڳاپيل آهي جيڪي هندستان جي متنوع لساني ماحول ۾ ڪم ڪرڻ لاءِ ٺاهيا ويا هجن.

ڇاڪاڻ⁠تہ ڪيترين ئي گهٽ وسيلن وارن ٻولين ۽ لهجن کي شامل ڪيو ويو آهي، جن لاءِ اڳ ۾ ٿورو يا ڪوبه تقرير وارو ڊيٽا موجود ناهي، تنهن ڪري VAANI انهن محققن لاءِ خاص اهميت رکي ٿو جيڪي شامل ڪندڙ ٻولي ٽيڪنالاجيز ٺاهڻ تي ڌيان ڏين ٿا. هي ASR ۽ قدرتي ٻولي پروسيسنگ جا اوزار تيار ڪرڻ لاءِ بنياد فراهم ڪري ٿو، جيڪي انهن برادرين جي خدمت ڪري سگهن ٿا جن جون ٻوليون تاريخي طور تي مکيه وهڪري واري AI ترقي ۾ موجود نه رهيون آهن.

هندستاني ٻولي ٽيڪنالاجي لاءِ اهميت

VAANI جو پيمانو ۽ لساني تنوع ان کي گهڻ-زباني تقريرن جي تحقيق جي شعبي ۾ هڪ نمايان ڪردار بڻائي ٿو، خاص طور تي ڏکڻ ايشيائي ٻولين جي حوالي سان. قبائلي، ڳوٺاڻي، ۽ علائقائي برادرين مان ڳالهائجندڙ قسمن کي وڌيڪ عام طور تي ڳالهائجندڙ ٻولين سان گڏ دستاويز ڪري، هي ڊيٽا سيٽ هندستان جي لساني ورثي جي ان پهلو کي پڪڙي ٿو، جيڪو ڪمپيوٽيشنل وسيلن ۾ تمام گهٽ نمائندگي رکي ٿو. ان جو کليل لائسنس تعليمي ادارن، سرڪاري ادارن، ۽ صنعت جي محققن لاءِ استعمال کي آسان بڻائي ٿو، جيڪي وڌيڪ شامل ڪندڙ ۽ نمائنده تقريرن واري ٽيڪنالاجيز ڏانهن ڪم ڪري رهيا آهن.

VAANI

زمرا

ٿيمز

پس منظر ۽ ترقي

ڊيٽا سيٽ جي جوڙجڪ ۽ اهم خاصيتون

سهڪاريل ڪم ۽ استعمال جا ڪيس

هندستاني ٻولي ٽيڪنالاجي لاءِ اهميت