زمرا
ٿيمز
VAANI هڪ وڏي پيماني تي گهڻ-ٻوليائي تقرير جو ڊيٽا سيٽ آهي، جيڪو بنگلور جي Indian Institute of Science (IISc) پاران تيار ڪيو ويو آهي. ان ۾ تقريباً 21,500 ڪلاڪن جو آڊيو شامل آهي، جيڪو لڳ ڀڳ 110,000 ڳالهائيندڙن کان گڏ ڪيو ويو آهي، 22 هندستاني رياستن ۾ 120 ضلعن تي پکڙيل. هي 86 ٻولين ۽ لهجن کي ڍڪي ٿو، جيڪي سڄي هندستان ۾ ڳالهايا وڃن ٿيون—جن ۾ وڏيون مقرر ڪيل ٻوليون به شامل آهن، ۽ گڏوگڏ ڪيترائي علائقائي ۽ قبائلي قسم به. ان ۾ 835 ڪلاڪن جي ٽرانسڪرائب ٿيل تقرير پڻ موجود آهي.
هي ڊيٽا سيٽ تقرير ۽ ٻولي سان لاڳاپيل مختلف ڪمن جي مدد لاءِ ٺاهيو ويو آهي، جن ۾ خودڪار تقرير جي سڃاڻپ (automatic speech recognition)، متن کان تقرير (text-to-speech synthesis)، ڳالهائيندڙ جي سڃاڻپ (speaker identification)، ٻولي جي سڃاڻپ (language identification)، تقرير جي بهتري (speech enhancement)، ۽ گهڻ-موڊل ٻولي ماڊل جي تياري (multimodal language model development) شامل آهن. CC BY 4.0 لائسنس تحت جاري ڪيل، اهو بنيادي طور AI سسٽمن کي تربيت ڏيڻ ۽ بينچمارڪنگ لاءِ ارادو ڪيو ويو آهي، خاص طور انهن محققن ۽ ڊولپرن لاءِ جيڪي گهٽ وسيلن واريون ۽ گهٽ نمائندگي رکندڙ هندستاني ٻوليون تي ڪم ڪري رهيا آهن.
پس منظر ۽ ترقي
VAANI (جنهن جي معنيٰ آهي “آواز” يا “تقرير” ڪيترن ئي هندستاني ٻولين ۾) بنگلور ۾ انڊين انسٽيٽيوٽ آف سائنس (IISc) پاران تيار ڪئي وئي، جيئن هندستاني ٻولين لاءِ تقرير جي ڊيٽا وسيلن ۾ موجود وڏي کوٽ کي پورو ڪرڻ جي ڪوشش جو حصو هجي. هندستان جو لساني منظرنامو دنيا ۾ سڀ کان وڌيڪ متنوع آهي، جنهن ۾ سوين ٻوليون ۽ هزارين لهجا شامل آهن، پر موجوده اڪثر تقريرن جا ڊيٽا سيٽ محدود تعداد جي چڱيءَ طرح وسيلن سان ڀرپور ٻولين تي ڌيان ڏين ٿا. VAANI کي هن اڻپوري لساني جاءِ لاءِ تربيت واري ڊيٽا جي دستيابي وڌائڻ خاطر تيار ڪيو ويو، جنهن لاءِ ملڪ جي جاگرافيائي ۽ لساني لحاظ کان مختلف علائقن ۾ وڏي پيماني تي فيلڊ ڊيٽا گڏ ڪئي وئي.
ڊيٽا تقريباً 110,000 ڳالهائيندڙن کان گڏ ڪئي وئي، جيڪي 22 هندستاني رياستن ۾ 120 ضلعن ۾ پکڙيل هئا. هيءَ هڪ ارادي واري ڪوشش هئي ته ڪنٽرول ٿيل اسٽوڊيو رڪارڊنگ تي ڀروسو ڪرڻ بدران حقيقي علائقائي ۽ لهجائي تبديلي کي پڪڙيو وڃي. ڊيٽا سيٽ 86 ٻولين ۽ لهجن تي مشتمل آهي، جن ۾ وڏين شيڊيولڊ ٻولين جهڙوڪ هندي، تامل، تيلگو، بنگالي، ڪناڊا، ۽ مليالم کان وٺي ڪيترين ئي علائقائي قسمن ۽ قبائلي ٻولين تائين شامل آهن، جن ۾ گونڊي، سنتالي، ڪوروک، وانچو، ۽ ٽينيديي شامل آهن، ۽ ان کان علاوه ٻيون به ڪيتريون ئي.
ڊيٽا سيٽ جي جوڙجڪ ۽ اهم خاصيتون
VAANI مجموعي طور تقريباً 21,500 ڪلاڪن جي آڊيو تي مشتمل آهي، جنهن ڪري هي هندستاني ٻولين تي ڌيان ڏيندڙ سڀ کان وڏن گهڻ-زباني تقريرن جي ڪورپس مان هڪ آهي. ان مان 835 ڪلاڪ ٽرانسڪرائب ڪيا ويا آهن، جيڪي مجموعي جي هڪ حصي لاءِ سچائيءَ تي ٻڌل متن جي تشريحون (ground-truth text annotations) مهيا ڪن ٿيون. ڊيٽا سيٽ ۾ ملٽي موڊل عنصر به شامل آهن، جنهن ڪري اهو روايتي تقريرن جي ڪمن کان ٻاهر استعمال لاءِ موزون بڻجي ٿو.
ڊيٽا سيٽ جون اهم خاصيتون هي آهن:
- 86 ٻولين ۽ لهجن جو احاطو، جن ۾ ڪيترائي گهٽ وسيلن وارا ۽ قبائلي قسم شامل آهن
- تقريباً 110,000 ڳالهائيندڙن جون حصيداري، جيڪي مختلف جاگرافيائي ۽ آباديائي پس منظرن مان آهن
- ڪل 21,500 ڪلاڪ آڊيو، جن مان 835 ڪلاڪ ٽرانسڪرائب ٿيل تقرير تي مشتمل آهن
- 120 ضلعن ۾ 22 هندستاني رياستن تائين پکڙيل فيلڊ رڪارڊنگون
- CC BY 4.0 لائسنس تحت جاري ڪيو ويو، جنهن سان انتساب (attribution) سان وسيع ٻيهر استعمال جي اجازت ملي ٿي
- ٻئي يونيموڊل ۽ ملٽي موڊل تحقيقي ايپليڪيشنن لاءِ سهڪار
سهڪاريل ڪم ۽ استعمال جا ڪيس
VAANI کي مختلف قسمن جي تقرير ۽ ٻولي پروسيسنگ ڪمن لاءِ هڪ وسيلِي طور تيار ڪيو ويو آهي. محقق ۽ ڊولپر ان کي خودڪار تقرير جي سڃاڻپ (ASR) سسٽمن جي تربيت ۽ جائزي لاءِ، ٽيڪسٽ کان تقرير (TTS) جي synthesis لاءِ، ڳالهائيندڙ جي سڃاڻپ، ۽ ٻولي جي سڃاڻپ وارن ماڊلن لاءِ استعمال ڪري سگهن ٿا. ڊيٽا سيٽ تقرير جي واڌاري (speech enhancement) تي ڪم ۽ ملٽي موڊل وڏي ٻوليءَ وارن ماڊلن (LLMs) جي ترقي کي به سهارو ڏئي ٿو. ٻولين جي وسيع احاطي سبب هي خاص طور تي انهن سسٽمن لاءِ لاڳاپيل آهي جيڪي هندستان جي متنوع لساني ماحول ۾ ڪم ڪرڻ لاءِ ٺاهيا ويا هجن.
ڇاڪاڻتہ ڪيترين ئي گهٽ وسيلن وارن ٻولين ۽ لهجن کي شامل ڪيو ويو آهي، جن لاءِ اڳ ۾ ٿورو يا ڪوبه تقرير وارو ڊيٽا موجود ناهي، تنهن ڪري VAANI انهن محققن لاءِ خاص اهميت رکي ٿو جيڪي شامل ڪندڙ ٻولي ٽيڪنالاجيز ٺاهڻ تي ڌيان ڏين ٿا. هي ASR ۽ قدرتي ٻولي پروسيسنگ جا اوزار تيار ڪرڻ لاءِ بنياد فراهم ڪري ٿو، جيڪي انهن برادرين جي خدمت ڪري سگهن ٿا جن جون ٻوليون تاريخي طور تي مکيه وهڪري واري AI ترقي ۾ موجود نه رهيون آهن.
هندستاني ٻولي ٽيڪنالاجي لاءِ اهميت
VAANI جو پيمانو ۽ لساني تنوع ان کي گهڻ-زباني تقريرن جي تحقيق جي شعبي ۾ هڪ نمايان ڪردار بڻائي ٿو، خاص طور تي ڏکڻ ايشيائي ٻولين جي حوالي سان. قبائلي، ڳوٺاڻي، ۽ علائقائي برادرين مان ڳالهائجندڙ قسمن کي وڌيڪ عام طور تي ڳالهائجندڙ ٻولين سان گڏ دستاويز ڪري، هي ڊيٽا سيٽ هندستان جي لساني ورثي جي ان پهلو کي پڪڙي ٿو، جيڪو ڪمپيوٽيشنل وسيلن ۾ تمام گهٽ نمائندگي رکي ٿو. ان جو کليل لائسنس تعليمي ادارن، سرڪاري ادارن، ۽ صنعت جي محققن لاءِ استعمال کي آسان بڻائي ٿو، جيڪي وڌيڪ شامل ڪندڙ ۽ نمائنده تقريرن واري ٽيڪنالاجيز ڏانهن ڪم ڪري رهيا آهن.