کټګورۍ
موضوعات
VAANI یوه لویه څو ژبنۍ وینا ډیټا مجموعه ده چې د هندوستان د ساینس انسټیټیوټ (IISc)، بنګلور لخوا جوړه شوې، چې شاوخوا 21,500 ساعته آډیو لري چې د 110,000 ویناوالو څخه په 120 ولسوالیو کې د 22 هندي ایالتونو څخه راټول شوې ده. دا 86 ژبې او لهجې پوښي چې په هند کې ویل کیږي، د لویو مهال ویش ژبو سربیره، د ګڼو سیمه ییزو او قبیلوي ډولونو سره، چې 835 ساعته د متن په توګه ثبت شوې وینا لري.
دا ډیټا مجموعه د وینا او ژبې د مختلفو دندو د ملاتړ لپاره ډیزاین شوې، چې پکې د اتوماتیک وینا پیژندنه، د متن څخه وینا تولید، د ویناوالو پیژندنه، د ژبې پیژندنه، د وینا ښه والی، او د څو موډل ژبې ماډل پراختیا شامل دي. دا د CC BY 4.0 جواز لاندې خپره شوې، او په ځانګړې توګه د AI سیسټمونو د روزنې او معیاري کولو لپاره موخه لري، په ځانګړې توګه د هغو محققینو او پراختیا کونکو لپاره چې په کم سرچینو او کم استازیتوب لرونکو هندي ژبو کار کوي.
پس منظر او پرمختګ
VAANI (چې په څو هندي ژبو کې "غږ" یا "وینا" معنی لري) د بنګلور په هندي ساینس انسټیټیوټ (IISc) کې جوړ شوی دی ترڅو د هندي ژبو لپاره د وینا د معلوماتو سرچینو کې د پام وړ خنډ حل کړي. د هند ژبنۍ چاپیریال د نړۍ تر ټولو متنوع چاپیریالونو څخه دی، چې په سلګونو ژبو او زرګونو لهجو کې شامل دی، بیا هم د موجوده وینا د معلوماتو ډیټا سیټونه په یوه تنګ سیټ کې د ښه سرچینو لرونکو ژبو باندې تمرکز کوي. VAANI د دې کمزوري ژبني ځای لپاره د روزنې د معلوماتو د شتون پراخولو لپاره جوړ شوی دی، چې د هیواد په جغرافیایي او ژبني مختلفو سیمو کې د لویې کچې د میداني معلوماتو راټولولو له لارې ترسره کیږي.
معلومات د شاوخوا 110,000 ویناوالو څخه راټول شوي چې په 22 هندي ایالتونو کې په 120 ولسوالیو کې خپاره شوي، چې د ریښتیني سیمه ییزې او لهجوي توپیر نیولو لپاره یوه اراده شوې هڅه ښیي، نه دا چې د کنټرول شوي سټوډیو ثبتونو باندې تکیه وکړي. د معلوماتو سیټ 86 ژبې او لهجې لري، چې له مهمو مهال ویش ژبو لکه هندي، تمل، تلګو، بنګالي، کانادا، او مالایالم څخه تر ګڼ شمیر سیمه ییزو ډولونو او قبیلوي ژبو لکه ګوندي، سانتالي، کوروخ، وانچو، او ټینیډي پورې پراخ دی، او د نورو په منځ کې.
د معلوماتو سیټ ترکیب او کلیدي ځانګړتیاوې
VAANI شاوخوا 21,500 ساعته آډیو لري، چې دا یې د هندي ژبو په تمرکز سره د ترټولو لوی څو ژبنیو وینا د معلوماتو سیټونو څخه جوړوي. له دې څخه، 835 ساعته ثبت شوي، چې د ټولګې د یوې برخې لپاره د حقیقي متن تشریح وړاندې کوي. د معلوماتو سیټ هم د څو موډل عناصرو سره یوځای دی، چې دا د دودیزو وینا دندو څخه بهر د کارونې لپاره مناسب کوي.
د معلوماتو سیټ کلیدي ځانګړتیاوې شاملې دي:
- د 86 ژبو او لهجو پوښښ، چې پکې ډیری کم سرچینې او قبیلوي ډولونه شامل دي
- د شاوخوا 110,000 ویناوالو ونډې چې د مختلف جغرافیایي او دیموګرافیک شالیدونو څخه راځي
- 21,500 ټولې ساعته آډیو چې 835 ساعته د ثبت شوې وینا لري
- د 22 هندي ایالتونو په 120 ولسوالیو کې د میداني ثبتونو
- د CC BY 4.0 جواز لاندې خپور شوی، چې پراخ بیا کارونې ته اجازه ورکوي
- د یو موډل او څو موډل څیړنیزو غوښتنلیکونو لپاره ملاتړ
مخکښ دندې او د کارونې قضیې
VAANI د وینا او ژبې د پروسس دندو لپاره د یوې سرچینې په توګه ډیزاین شوی دی. څیړونکي او پراختیا کونکي کولی شي دا د اتوماتیک وینا پېژندنې (ASR) سیسټمونو، متن-ته-وینا (TTS) ترکیب، د وینا پېژندنې، او د ژبې پېژندنې ماډلونو د روزنې او ارزونې لپاره وکاروي. د معلوماتو سیټ هم د وینا د پرمختګ او د څو موډل لوی ژبې ماډلونو (LLMs) د پرمختګ لپاره کار کوي. د ژبې د پوښښ پراخوالی دا د هند د متنوع ژبني چاپیریال په اوږدو کې د کار کولو لپاره ځانګړی اړوند کوي.
د ډیرو کم سرچینې ژبو او لهجو د شاملیدو په پام کې نیولو سره چې د مخکې وینا معلومات لږ یا هیڅ شتون نلري، VAANI د هغو څیړونکو لپاره ځانګړی ارزښت لري چې د شمولیت لرونکو ژبني ټیکنالوژیو جوړولو باندې تمرکز کوي. دا د ASR او طبیعي ژبې پروسس کولو وسیلو د پراختیا لپاره یوه بنسټ وړاندې کوي چې کولی شي د هغو ټولنو خدمت وکړي چې ژبې یې په تاریخي توګه د عامه AI پرمختګ څخه غایب پاتې شوي دي.
د هندي ژبې ټیکنالوژۍ لپاره اهمیت
د VAANI کچه او ژبنۍ تنوع دا د څو ژبنیو وینا د څیړنې په برخه کې یوه مهمه ونډه جوړوي، په ځانګړي توګه د جنوبي آسیا ژبو په سیاق کې. د قبیلوي، کلي، او سیمه ییزو ټولنو د وینا شوي ډولونو مستند کولو له لارې، د معلوماتو سیټ د هند د ژبني میراث یوه بُعد نیسي چې په محاسباتي سرچینو کې لږ استازیتوب لري. د دې خلاص جواز د اکادمیکو موسسو، دولتي ادارو، او د صنعت څیړونکو لپاره کارول اسانه کوي چې د شمولیت او استازیتوب لرونکو وینا ټیکنالوژیو په لور کار کوي.