వర్గాలు
థీమ్లు
VAANI అనేది భారతదేశ శాస్త్ర సంస్థ (IISc), బెంగళూరు ద్వారా అభివృద్ధి చేయబడిన పెద్ద స్థాయి బహుభాషా మాట్లాడే డేటాసెట్, ఇది 22 భారత రాష్ట్రాలలో 120 జిల్లాల నుండి సేకరించిన సుమారు 21,500 గంటల ఆడియోను 110,000 మంది మాట్లాడేవారితో కలిగి ఉంది. ఇది భారతదేశంలో మాట్లాడే 86 భాషలు మరియు ఉపభాషలను కవర్ చేస్తుంది, ప్రధాన షెడ్యూల్ భాషలు మరియు అనేక ప్రాంతీయ మరియు తెగ భాషా వైవిధ్యాలను కలిగి ఉంది, ఇందులో 835 గంటల ట్రాన్స్క్రైబ్డ్ మాట్లాడే భాగం ఉంది.
ఈ డేటాసెట్ ఆటోమేటిక్ స్పీచ్ రికగ్నిషన్, టెక్స్ట్-టు-స్పీచ్ సింథసిస్, స్పీకర్ ఐడెంటిఫికేషన్, భాష గుర్తింపు, స్పీచ్ ఎన్హాన్స్మెంట్ మరియు బహుమాధ్యమ భాషా మోడల్ అభివృద్ధి వంటి వివిధ మాట్లాడే మరియు భాషా పనులను మద్దతు ఇవ్వడానికి రూపొందించబడింది. CC BY 4.0 లైసెన్స్ కింద విడుదల చేయబడింది, ఇది ముఖ్యంగా AI వ్యవస్థలను శిక్షణ మరియు బెంచ్మార్కింగ్ కోసం ఉద్దేశించబడింది, ప్రత్యేకంగా తక్కువ వనరులు మరియు ప్రతినిధి లేని భారతీయ భాషలపై పనిచేస్తున్న పరిశోధకులు మరియు అభివృద్ధికర్తలకు సంబంధించి ఉంది.
పరిశీలన మరియు అభివృద్ధి
VAANI (ఇది అనేక భారతీయ భాషల్లో "శబ్దం" లేదా "భాష" అని అర్థం) భారతదేశంలోని బెంగళూరులోని భారతీయ శాస్త్ర సంస్థ (IISc) ద్వారా భారతీయ భాషల కోసం మాట్లాడే డేటా వనరులలో ఉన్న ముఖ్యమైన ఖాళీని పూరించడానికి రూపొందించబడింది. భారతదేశం యొక్క భాషా దృశ్యం ప్రపంచంలో అత్యంత వైవిధ్యమైనది, ఇది వందల భాషలు మరియు వేలాది ఉపభాషలను కలిగి ఉంది, అయినప్పటికీ, ఉన్న మాట్లాడే డేటాసెట్లలో ఎక్కువ భాగం బాగా వనరులున్న భాషలపై కేంద్రీకృతమై ఉంది. VAANI ఈ అండర్సర్వ్డ్ భాషా స్థలానికి శిక్షణ డేటా అందుబాటును విస్తరించడానికి దేశంలోని భౌగోళిక మరియు భాషా వైవిధ్యమైన ప్రాంతాలలో పెద్ద స్థాయి ఫీల్డ్ డేటా సేకరణ నిర్వహించడం ద్వారా అభివృద్ధి చేయబడింది.
110,000 మంది మాట్లాడేవారిలో సేకరించిన డేటా 22 భారతీయ రాష్ట్రాలలో 120 జిల్లాల విస్తృతంగా వ్యాప్తి చెందింది, ఇది నియంత్రిత స్టూడియో రికార్డింగ్లపై ఆధారపడకుండా నిజమైన ప్రాంతీయ మరియు ఉపభాషా వైవిధ్యాన్ని పట్టుకోవడానికి ఉద్దేశించిన ప్రయత్నాన్ని ప్రతిబింబిస్తుంది. ఈ డేటాసెట్ 86 భాషలు మరియు ఉపభాషలను కవర్ చేస్తుంది, ప్రధాన షెడ్యూల్ భాషలైన హిందీ, తమిళ్, తెలుగు, బెంగాలీ, కన్నడ మరియు మలయాళం నుండి గోండీ, సంతాలి, కురుఖ్, వంచో మరియు టెన్యిడీ వంటి అనేక ప్రాంతీయ రకాల మరియు తెగ భాషల వరకు విస్తరించాయి.
డేటాసెట్ నిర్మాణం మరియు ముఖ్యమైన లక్షణాలు
VAANI మొత్తం 21,500 గంటల ఆడియోను కలిగి ఉంది, ఇది భారతీయ భాషలపై కేంద్రీకృతమైన అతి పెద్ద బహుభాషా మాట్లాడే శ్రేణులలో ఒకటి. ఇందులో 835 గంటలు ట్రాన్స్క్రైబ్ చేయబడ్డాయి, ఇది సేకరణలోని ఉపసంహారానికి భూమి-సత్య టెక్స్ట్ వ్యాఖ్యానాలను అందిస్తుంది. ఈ డేటాసెట్ బహుముఖీయ అంశాలను కూడా కలిగి ఉంది, ఇది సంప్రదాయ మాట్లాడే పనుల కంటే మించి ఉపయోగించడానికి అనుకూలంగా ఉంది.
డేటాసెట్ యొక్క ముఖ్యమైన లక్షణాలు:
- చాలా తక్కువ వనరులున్న మరియు తెగ రకాలతో సహా 86 భాషలు మరియు ఉపభాషల కవరేజ్
- వివిధ భౌగోళిక మరియు ప్రజా నేపథ్యాల నుండి సుమారు 110,000 మంది మాట్లాడేవారి నుండి చేసిన కృషి
- 835 గంటల ట్రాన్స్క్రైబ్ చేసిన మాట్లాడే ఆడియోతో 21,500 మొత్తం గంటల ఆడియో
- 22 భారతీయ రాష్ట్రాలలో 120 జిల్లాలను కవర్ చేసే ఫీల్డ్ రికార్డింగ్లు
- వ్యవహారానికి విస్తృతంగా పునర్వినియోగానికి అనుమతించే CC BY 4.0 లైసెన్స్ కింద విడుదల చేయబడింది
- ఒకే మోడల్ మరియు బహుముఖీయ పరిశోధన అనువర్తనాలకు మద్దతు
మద్దతు ఇచ్చిన పనులు మరియు ఉపయోగం
VAANI విస్తృత శ్రేణి మాట్లాడే మరియు భాషా ప్రాసెసింగ్ పనుల కోసం వనరుగా పనిచేయడానికి రూపొందించబడింది. పరిశోధకులు మరియు అభివృద్ధి దారులు దీనిని ఆటోమేటిక్ స్పీచ్ రికగ్నిషన్ (ASR) వ్యవస్థలను శిక్షణ మరియు మూల్యాంకనం చేయడానికి, టెక్స్ట్-టు-స్పీచ్ (TTS) సింథసిస్, మాట్లాడేవారి గుర్తింపు మరియు భాష గుర్తింపు మోడళ్ల కోసం ఉపయోగించవచ్చు. ఈ డేటాసెట్ మాట్లాడే మెరుగుదల మరియు బహుముఖీయ పెద్ద భాషా మోడళ్ల (LLMs) అభివృద్ధిపై కూడా పని చేయడానికి మద్దతు ఇస్తుంది. భాషా కవరేజ్ యొక్క విస్తీర్ణం భారతదేశంలోని వైవిధ్యమైన భాషా వాతావరణంలో పనిచేయడానికి ఉద్దేశించిన వ్యవస్థలను బెంచ్మార్క్ చేయడానికి ప్రత్యేకంగా సంబంధితంగా చేస్తుంది.
చాలా తక్కువ వనరులున్న భాషలు మరియు ఉపభాషలు, వాటికి ముందు మాట్లాడే డేటా చాలా తక్కువ లేదా లేదు, VAANI సమగ్ర భాషా సాంకేతికతలను నిర్మించడానికి కేంద్రీకృతమైన పరిశోధకులకు ప్రత్యేక విలువను కలిగి ఉంది. ఇది ASR మరియు సహజ భాషా ప్రాసెసింగ్ సాధనాలను అభివృద్ధి చేయడానికి ఒక ఆధారాన్ని అందిస్తుంది, ఇవి చరిత్రాత్మకంగా ప్రధాన AI అభివృద్ధిలో లేనివారైన సమాజాలకు సేవ చేయవచ్చు.
భారతీయ భాషా సాంకేతికతకు ప్రాముఖ్యత
VAANI యొక్క పరిమాణం మరియు భాషా వైవిధ్యం బహుభాషా మాట్లాడే పరిశోధనకు ప్రత్యేకమైన కృషిగా మారుస్తుంది, ముఖ్యంగా దక్షిణ ఆసియా భాషల సందర్భంలో. తెగ, గ్రామీణ మరియు ప్రాంతీయ సమాజాల నుండి మాట్లాడే రకాలను డాక్యుమెంట్ చేయడం ద్వారా, ఈ డేటాసెట్ కంప్యూటేషనల్ వనరులలో అరుదుగా ప్రతినిధిత్వం పొందే భారతదేశం యొక్క భాషా వారసత్వానికి ఒక కొలతను పట్టిస్తుంది. దీని ఓపెన్ లైసెన్స్, సమగ్ర మరియు ప్రతినిధి మాట్లాడే సాంకేతికతలపై పనిచేస్తున్న అకడమిక్ సంస్థలు, ప్రభుత్వ సంస్థలు మరియు పరిశ్రమ పరిశోధకులకు ఉపయోగించడానికి అనుమతిస్తుంది.