పరిశీలన మరియు అభివృద్ధి

VAANI (ఇది అనేక భారతీయ భాషల్లో "శబ్దం" లేదా "భాష" అని అర్థం) భారతదేశంలోని బెంగళూరులోని భారతీయ శాస్త్ర సంస్థ (IISc) ద్వారా భారతీయ భాషల కోసం మాట్లాడే డేటా వనరులలో ఉన్న ముఖ్యమైన ఖాళీని పూరించడానికి రూపొందించబడింది. భారతదేశం యొక్క భాషా దృశ్యం ప్రపంచంలో అత్యంత వైవిధ్యమైనది, ఇది వందల భాషలు మరియు వేలాది ఉపభాషలను కలిగి ఉంది, అయినప్పటికీ, ఉన్న మాట్లాడే డేటాసెట్‌లలో ఎక్కువ భాగం బాగా వనరులున్న భాషలపై కేంద్రీకృతమై ఉంది. VAANI ఈ అండర్‌సర్వ్డ్ భాషా స్థలానికి శిక్షణ డేటా అందుబాటును విస్తరించడానికి దేశంలోని భౌగోళిక మరియు భాషా వైవిధ్యమైన ప్రాంతాలలో పెద్ద స్థాయి ఫీల్డ్ డేటా సేకరణ నిర్వహించడం ద్వారా అభివృద్ధి చేయబడింది.

110,000 మంది మాట్లాడేవారిలో సేకరించిన డేటా 22 భారతీయ రాష్ట్రాలలో 120 జిల్లాల విస్తృతంగా వ్యాప్తి చెందింది, ఇది నియంత్రిత స్టూడియో రికార్డింగ్‌లపై ఆధారపడకుండా నిజమైన ప్రాంతీయ మరియు ఉపభాషా వైవిధ్యాన్ని పట్టుకోవడానికి ఉద్దేశించిన ప్రయత్నాన్ని ప్రతిబింబిస్తుంది. ఈ డేటాసెట్ 86 భాషలు మరియు ఉపభాషలను కవర్ చేస్తుంది, ప్రధాన షెడ్యూల్ భాషలైన హిందీ, తమిళ్, తెలుగు, బెంగాలీ, కన్నడ మరియు మలయాళం నుండి గోండీ, సంతాలి, కురుఖ్, వంచో మరియు టెన్యిడీ వంటి అనేక ప్రాంతీయ రకాల మరియు తెగ భాషల వరకు విస్తరించాయి.

డేటాసెట్ నిర్మాణం మరియు ముఖ్యమైన లక్షణాలు

VAANI మొత్తం 21,500 గంటల ఆడియోను కలిగి ఉంది, ఇది భారతీయ భాషలపై కేంద్రీకృతమైన అతి పెద్ద బహుభాషా మాట్లాడే శ్రేణులలో ఒకటి. ఇందులో 835 గంటలు ట్రాన్స్‌క్రైబ్ చేయబడ్డాయి, ఇది సేకరణలోని ఉపసంహారానికి భూమి-సత్య టెక్స్ట్ వ్యాఖ్యానాలను అందిస్తుంది. ఈ డేటాసెట్ బహుముఖీయ అంశాలను కూడా కలిగి ఉంది, ఇది సంప్రదాయ మాట్లాడే పనుల కంటే మించి ఉపయోగించడానికి అనుకూలంగా ఉంది.

డేటాసెట్ యొక్క ముఖ్యమైన లక్షణాలు:

చాలా తక్కువ వనరులున్న మరియు తెగ రకాలతో సహా 86 భాషలు మరియు ఉపభాషల కవరేజ్
వివిధ భౌగోళిక మరియు ప్రజా నేపథ్యాల నుండి సుమారు 110,000 మంది మాట్లాడేవారి నుండి చేసిన కృషి
835 గంటల ట్రాన్స్‌క్రైబ్ చేసిన మాట్లాడే ఆడియోతో 21,500 మొత్తం గంటల ఆడియో
22 భారతీయ రాష్ట్రాలలో 120 జిల్లాలను కవర్ చేసే ఫీల్డ్ రికార్డింగ్‌లు
వ్యవహారానికి విస్తృతంగా పునర్వినియోగానికి అనుమతించే CC BY 4.0 లైసెన్స్ కింద విడుదల చేయబడింది
ఒకే మోడల్ మరియు బహుముఖీయ పరిశోధన అనువర్తనాలకు మద్దతు

మద్దతు ఇచ్చిన పనులు మరియు ఉపయోగం

VAANI విస్తృత శ్రేణి మాట్లాడే మరియు భాషా ప్రాసెసింగ్ పనుల కోసం వనరుగా పనిచేయడానికి రూపొందించబడింది. పరిశోధకులు మరియు అభివృద్ధి దారులు దీనిని ఆటోమేటిక్ స్పీచ్ రికగ్నిషన్ (ASR) వ్యవస్థలను శిక్షణ మరియు మూల్యాంకనం చేయడానికి, టెక్స్ట్-టు-స్పీచ్ (TTS) సింథసిస్, మాట్లాడేవారి గుర్తింపు మరియు భాష గుర్తింపు మోడళ్ల కోసం ఉపయోగించవచ్చు. ఈ డేటాసెట్ మాట్లాడే మెరుగుదల మరియు బహుముఖీయ పెద్ద భాషా మోడళ్ల (LLMs) అభివృద్ధిపై కూడా పని చేయడానికి మద్దతు ఇస్తుంది. భాషా కవరేజ్ యొక్క విస్తీర్ణం భారతదేశంలోని వైవిధ్యమైన భాషా వాతావరణంలో పనిచేయడానికి ఉద్దేశించిన వ్యవస్థలను బెంచ్‌మార్క్ చేయడానికి ప్రత్యేకంగా సంబంధితంగా చేస్తుంది.

చాలా తక్కువ వనరులున్న భాషలు మరియు ఉపభాషలు, వాటికి ముందు మాట్లాడే డేటా చాలా తక్కువ లేదా లేదు, VAANI సమగ్ర భాషా సాంకేతికతలను నిర్మించడానికి కేంద్రీకృతమైన పరిశోధకులకు ప్రత్యేక విలువను కలిగి ఉంది. ఇది ASR మరియు సహజ భాషా ప్రాసెసింగ్ సాధనాలను అభివృద్ధి చేయడానికి ఒక ఆధారాన్ని అందిస్తుంది, ఇవి చరిత్రాత్మకంగా ప్రధాన AI అభివృద్ధిలో లేనివారైన సమాజాలకు సేవ చేయవచ్చు.

భారతీయ భాషా సాంకేతికతకు ప్రాముఖ్యత

VAANI యొక్క పరిమాణం మరియు భాషా వైవిధ్యం బహుభాషా మాట్లాడే పరిశోధనకు ప్రత్యేకమైన కృషిగా మారుస్తుంది, ముఖ్యంగా దక్షిణ ఆసియా భాషల సందర్భంలో. తెగ, గ్రామీణ మరియు ప్రాంతీయ సమాజాల నుండి మాట్లాడే రకాలను డాక్యుమెంట్ చేయడం ద్వారా, ఈ డేటాసెట్ కంప్యూటేషనల్ వనరులలో అరుదుగా ప్రతినిధిత్వం పొందే భారతదేశం యొక్క భాషా వారసత్వానికి ఒక కొలతను పట్టిస్తుంది. దీని ఓపెన్ లైసెన్స్, సమగ్ర మరియు ప్రతినిధి మాట్లాడే సాంకేతికతలపై పనిచేస్తున్న అకడమిక్ సంస్థలు, ప్రభుత్వ సంస్థలు మరియు పరిశ్రమ పరిశోధకులకు ఉపయోగించడానికి అనుమతిస్తుంది.

VAANI

వర్గాలు

థీమ్‌లు

పరిశీలన మరియు అభివృద్ధి

డేటాసెట్ నిర్మాణం మరియు ముఖ్యమైన లక్షణాలు

మద్దతు ఇచ్చిన పనులు మరియు ఉపయోగం

భారతీయ భాషా సాంకేతికతకు ప్రాముఖ్యత