VAANI

Name: VAANI
Creator: Indian Institute of Science
License: https://creativecommons.org/licenses/by/4.0/

വെബ്സൈറ്റ് സന്ദർശിക്കുക

സൃഷ്ടിച്ചത് Indian Institute of Science

വെബ്സൈറ്റ് സന്ദർശിക്കുക

21,500 hours CC-BY 4.0 Training എല്ലാ ഭാഷകളും

വിഭാഗങ്ങൾ

ഓഡിയോ & വാക്ക് മൾട്ടി-മോഡൽ

തീമുകൾ

voice audionlp

ബാംഗ്ലൂരിലെ ഇന്ത്യൻ ഇൻസ്റ്റിറ്റ്യൂട്ട് ഓഫ് സയൻസ് (IISc) വികസിപ്പിച്ചെടുത്ത VAANI എന്നത് ഒരു വലിയ തോതിലുള്ള ബഹുഭാഷാ സംസാര ഡാറ്റാസെറ്റാണ്. ഏകദേശം 110,000 സംസാരക്കാരിൽ നിന്ന് 22 ഇന്ത്യൻ സംസ്ഥാനങ്ങളിലായി 120 ജില്ലകളിൽ ശേഖരിച്ചിട്ടുള്ള ഏകദേശം 21,500 മണിക്കൂർ ഓഡിയോ ഇതിൽ ഉൾപ്പെടുന്നു. ഇന്ത്യയിലുടനീളം സംസാരിക്കുന്ന 86 ഭാഷകളും ഉപഭാഷകളും ഇതിൽ ഉൾക്കൊള്ളുന്നു; ഇതിൽ പ്രധാന ഷെഡ്യൂൾഡ് ഭാഷകളും അനവധി പ്രാദേശികവും ആദിവാസി വിഭാഗങ്ങളിലുമുള്ള വകഭേദങ്ങളും ഉൾപ്പെടുന്നു. കൂടാതെ, 835 മണിക്കൂർ ട്രാൻസ്ക്രൈബ് ചെയ്ത സംസാരവും ഇതിലുണ്ട്.

സ്വയമേവ സംസാര തിരിച്ചറിയൽ (automatic speech recognition), ടെക്സ്റ്റ്-ടു-സ്പീച്ച് സിന്തസിസ്, സംസാരക്കാരനെ തിരിച്ചറിയൽ, ഭാഷ തിരിച്ചറിയൽ, സംസാര മെച്ചപ്പെടുത്തൽ, മൾട്ടിമോഡൽ ഭാഷാ മോഡൽ വികസനം എന്നിവ ഉൾപ്പെടെ വിവിധ തരത്തിലുള്ള സംസാര-ഭാഷാ പ്രവർത്തനങ്ങളെ പിന്തുണയ്ക്കുന്നതിനായി ഈ ഡാറ്റാസെറ്റ് രൂപകൽപ്പന ചെയ്തതാണ്. CC BY 4.0 ലൈസൻസിന് കീഴിൽ പുറത്തിറക്കിയിരിക്കുന്ന ഇത് പ്രധാനമായും AI സിസ്റ്റങ്ങൾ പരിശീലിപ്പിക്കാനും ബെഞ്ച്മാർക്ക് ചെയ്യാനും വേണ്ടിയാണ് ഉദ്ദേശിച്ചിരിക്കുന്നത്; പ്രത്യേകിച്ച് കുറഞ്ഞ വിഭവങ്ങളുള്ളതും പ്രതിനിധാനം കുറവുള്ളതുമായ ഇന്ത്യൻ ഭാഷകളിൽ പ്രവർത്തിക്കുന്ന ഗവേഷകരും ഡെവലപ്പർമാരും ഇതിൽ നിന്ന് കൂടുതൽ പ്രയോജനം നേടും.

പശ്ചാത്തലവും വികസനവും

വാണി (ഇന്ത്യയിലെ പല ഭാഷകളിലും “ശബ്ദം” അല്ലെങ്കിൽ “സംസാരം” എന്നർത്ഥം വരുന്ന വാക്ക്) ഇന്ത്യൻ ഇൻസ്റ്റിറ്റ്യൂട്ട് ഓഫ് സയൻസ് (IISc) ബംഗളൂരുവിൽ സൃഷ്ടിച്ചത്, ഇന്ത്യൻ ഭാഷകൾക്കായുള്ള സംസാര ഡാറ്റ വിഭവങ്ങളിൽ ഉള്ള വലിയൊരു വിടവ് പരിഹരിക്കാനുള്ള ശ്രമത്തിന്റെ ഭാഗമായാണ്. ലോകത്തിലെ ഏറ്റവും വൈവിധ്യമാർന്ന ഭാഷാപരമായ ഭൂപ്രദേശങ്ങളിൽ ഒന്നാണ് ഇന്ത്യ; നൂറുകണക്കിന് ഭാഷകളും ആയിരക്കണക്കിന് ഉപഭാഷകളും ഇതിൽ ഉൾപ്പെടുന്നു. എന്നാൽ നിലവിലുള്ള സംസാര ഡാറ്റാസെറ്റുകളുടെ ഭൂരിഭാഗവും നല്ല വിഭവങ്ങൾ ലഭ്യമായ കുറച്ച് ഭാഷകളിലേക്കാണ് കേന്ദ്രീകരിക്കുന്നത്. ഈ സേവനം ലഭിക്കാത്ത ഭാഷാപരമായ മേഖലയിലേക്ക് പരിശീലന ഡാറ്റയുടെ ലഭ്യത വിപുലീകരിക്കുന്നതിനായി രാജ്യത്തിന്റെ ഭൂമിശാസ്ത്രപരവും ഭാഷാപരവുമായ വൈവിധ്യമുള്ള പ്രദേശങ്ങളിലുടനീളം വലിയ തോതിലുള്ള ഫീൽഡ് ഡാറ്റ ശേഖരണം നടത്തി വാണി വികസിപ്പിച്ചു.

ഏകദേശം 110,000 സംസാരക്കാരിൽ നിന്ന് 22 ഇന്ത്യൻ സംസ്ഥാനങ്ങളിലെ 120 ജില്ലകളിലായി ഡാറ്റ ശേഖരിച്ചു. നിയന്ത്രിത സ്റ്റുഡിയോ റെക്കോർഡിംഗുകളെ ആശ്രയിക്കുന്നതിനു പകരം യഥാർത്ഥ പ്രാദേശികവും ഉപഭാഷാപരവുമായ വ്യത്യാസങ്ങൾ പിടികൂടാനുള്ള ഉദ്ദേശ്യപൂർവമായ ശ്രമമാണിത്. ഈ ഡാറ്റാസെറ്റ് 86 ഭാഷകളും ഉപഭാഷകളും ഉൾക്കൊള്ളുന്നു; ഹിന്ദി, തമിഴ്, തെലുങ്ക്, ബംഗാളി, കന്നഡ, മലയാളം പോലുള്ള പ്രധാന ഷെഡ്യൂൾഡ് ഭാഷകളിൽ നിന്ന് തുടങ്ങി ഗൊണ്ടി, സന്താലി, കുരുഖ്, വാഞ്ചോ, ടെനിയിഡി തുടങ്ങിയ നിരവധി പ്രാദേശിക വകഭേദങ്ങളും ഗോത്രഭാഷകളും ഉൾപ്പെടെ അനേകം ഭാഷകൾ വരെയുണ്ട്.

ഡാറ്റാസെറ്റ് ഘടനയും പ്രധാന സവിശേഷതകളും

വാണിയിൽ മൊത്തമായി ഏകദേശം 21,500 മണിക്കൂർ ഓഡിയോ ഉൾപ്പെടുന്നു; ഇന്ത്യൻ ഭാഷകളെ കേന്ദ്രീകരിച്ചുള്ള ഏറ്റവും വലിയ ബഹുഭാഷാ സംസാര കോർപ്പസുകളിൽ ഒന്നാണിത്. ഇതിൽ 835 മണിക്കൂർ ട്രാൻസ്ക്രൈബ് ചെയ്തിട്ടുണ്ട്; ശേഖരണത്തിന്റെ ഒരു ഭാഗത്തിനായി ഗ്രൗണ്ട്-ട്രൂത്ത് ടെക്സ്റ്റ് അനോട്ടേഷനുകൾ ഇതിലൂടെ ലഭിക്കുന്നു. കൂടാതെ, ഈ ഡാറ്റാസെറ്റ് മൾട്ടിമോഡൽ ഘടകങ്ങളും ഉൾക്കൊള്ളുന്നു; പരമ്പരാഗത സംസാര ടാസ്കുകൾക്കപ്പുറം ഉപയോഗിക്കാനുള്ള സാധ്യത ഇതിന് നൽകുന്നു.

ഡാറ്റാസെറ്റിന്റെ പ്രധാന സവിശേഷതകൾ:

86 ഭാഷകളും ഉപഭാഷകളും ഉൾക്കൊള്ളുന്നു; നിരവധി കുറഞ്ഞ വിഭവമുള്ളതും ഗോത്രപരവുമായ വകഭേദങ്ങൾ ഉൾപ്പെടെ
വൈവിധ്യമാർന്ന ഭൂമിശാസ്ത്രപരവും ജനസംഖ്യാത്മകവുമായ പശ്ചാത്തലങ്ങളിൽ നിന്നുള്ള ഏകദേശം 110,000 സംസാരക്കാരുടെ സംഭാവനകൾ
ട്രാൻസ്ക്രൈബ് ചെയ്ത സംസാരമുള്ള 835 മണിക്കൂറുകൾ ഉൾപ്പെടെ മൊത്തം 21,500 മണിക്കൂർ ഓഡിയോ
22 ഇന്ത്യൻ സംസ്ഥാനങ്ങളിലെ 120 ജില്ലകളിലുടനീളം വ്യാപിച്ചിരിക്കുന്ന ഫീൽഡ് റെക്കോർഡിംഗുകൾ
CC BY 4.0 ലൈസൻസിന് കീഴിൽ പുറത്തിറക്കിയത്; അട്രിബ്യൂഷനോടുകൂടി വ്യാപകമായ പുനർഉപയോഗം അനുവദിക്കുന്നു
യൂണിമോഡൽയും മൾട്ടിമോഡൽയും ആയ ഗവേഷണ ആപ്ലിക്കേഷനുകൾക്ക് പിന്തുണ

പിന്തുണയ്ക്കുന്ന ടാസ്കുകളും ഉപയോഗകേസുകളും

വാണി വിവിധതരം സംസാരവും ഭാഷാപ്രോസസ്സിംഗും ടാസ്കുകൾക്കായുള്ള ഒരു വിഭവമായി സേവിക്കാനാണ് രൂപകൽപ്പന ചെയ്തത്. ഗവേഷകരും ഡെവലപ്പർമാരും ഇതിനെ ഓട്ടോമാറ്റിക് സ്പീച്ച് റിക്കഗ്നിഷൻ (ASR) സിസ്റ്റങ്ങൾ, ടെക്സ്റ്റ്-ടു-സ്പീച്ച് (TTS) സിന്തസിസ്, സ്പീക്കർ ഐഡന്റിഫിക്കേഷൻ, ഭാഷാ ഐഡന്റിഫിക്കേഷൻ മോഡലുകൾ എന്നിവ പരിശീലിപ്പിക്കാനും വിലയിരുത്താനും ഉപയോഗിക്കാം. സംസാര വർദ്ധന (speech enhancement) സംബന്ധിച്ച പ്രവർത്തനങ്ങൾക്കും മൾട്ടിമോഡൽ വലിയ ഭാഷാ മോഡലുകൾ (LLMs) വികസിപ്പിക്കുന്നതിനുമുള്ള പിന്തുണയും ഈ ഡാറ്റാസെറ്റിൽ ഉണ്ട്. ഇന്ത്യയുടെ വൈവിധ്യമാർന്ന ഭാഷാപരമായ സാഹചര്യത്തിൽ പ്രവർത്തിക്കാൻ ഉദ്ദേശിക്കുന്ന സിസ്റ്റങ്ങൾ ബെഞ്ച്മാർക്ക് ചെയ്യുന്നതിനായി പ്രത്യേകിച്ച് പ്രസക്തമാക്കുന്നത് ഭാഷാവ്യാപ്തിയുടെ വിശാലതയാണ്.

മുൻപ് സംസാര ഡാറ്റ വളരെ കുറവായതോ ഇല്ലാതെയോ ഉള്ള നിരവധി കുറഞ്ഞ വിഭവമുള്ള ഭാഷകളും ഉപഭാഷകളും ഉൾപ്പെടുത്തിയിരിക്കുന്നതിനാൽ, ഉൾക്കൊള്ളുന്ന ഭാഷാ സാങ്കേതികവിദ്യകൾ നിർമ്മിക്കാൻ ശ്രദ്ധിക്കുന്ന ഗവേഷകർക്ക് വാണിക്ക് പ്രത്യേക മൂല്യമുണ്ട്. മുഖ്യധാര AI വികസനത്തിൽ ചരിത്രപരമായി അഭാവമായിരുന്ന ഭാഷകൾ സംസാരിക്കുന്ന സമൂഹങ്ങൾക്ക് സേവനം നൽകാൻ കഴിയുന്ന ASR, നാചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിംഗ് ഉപകരണങ്ങൾ വികസിപ്പിക്കുന്നതിന് ഇത് ഒരു അടിസ്ഥാനമായി പ്രവർത്തിക്കുന്നു.

ഇന്ത്യൻ ഭാഷാ സാങ്കേതികവിദ്യയ്ക്കുള്ള പ്രാധാന്യം

വാണിയുടെ വലിപ്പവും ഭാഷാപരമായ വൈവിധ്യവും, പ്രത്യേകിച്ച് ദക്ഷിണേഷ്യൻ ഭാഷകളുടെ പശ്ചാത്തലത്തിൽ, ബഹുഭാഷാ സംസാര ഗവേഷണ മേഖലയിലേക്ക് ശ്രദ്ധേയമായ ഒരു സംഭാവനയാക്കുന്നു. ഗോത്ര, ഗ്രാമീണ, പ്രാദേശിക സമൂഹങ്ങളിൽ നിന്നുള്ള സംസാര വകഭേദങ്ങൾ കൂടുതൽ വ്യാപകമായി സംസാരിക്കപ്പെടുന്ന ഭാഷകളോടൊപ്പം രേഖപ്പെടുത്തുന്നതിലൂടെ, കംപ്യൂട്ടേഷണൽ വിഭവങ്ങളിൽ അപൂർവമായി പ്രതിനിധീകരിക്കപ്പെടുന്ന ഇന്ത്യയുടെ ഭാഷാപൈതൃകത്തിന്റെ ഒരു അളവ് ഈ ഡാറ്റാസെറ്റ് പിടികൂടുന്നു. അതിന്റെ തുറന്ന ലൈസൻസ്, കൂടുതൽ ഉൾക്കൊള്ളുന്നതും പ്രതിനിധാനപരവുമായ സംസാര സാങ്കേതികവിദ്യകൾ ലക്ഷ്യമാക്കി പ്രവർത്തിക്കുന്ന അക്കാദമിക് സ്ഥാപനങ്ങൾ, സർക്കാർ ഏജൻസികൾ, വ്യവസായ ഗവേഷകർ എന്നിവർക്കുള്ള ഉപയോഗം എളുപ്പമാക്കുന്നു.

റിപ്പോർട്ട്