Name: VAANI
Creator: Indian Institute of Science
License: https://creativecommons.org/licenses/by/4.0/

ಹಿನ್ನೆಲೆ ಮತ್ತು ಅಭಿವೃದ್ಧಿ

VAANI (ಹಲವಾರು ಭಾರತೀಯ ಭಾಷೆಗಳಲ್ಲಿ ಇದರ ಅರ್ಥ "ಧ್ವನಿ" ಅಥವಾ "ಮಾತು") ಅನ್ನು Bangalore‌ನ Indian Institute of Science (IISc) ಭಾರತೀಯ ಭಾಷೆಗಳಿಗಾಗಿ ಮಾತಿನ ದತ್ತಾಂಶ ಸಂಪನ್ಮೂಲಗಳಲ್ಲಿ ಇರುವ ಮಹತ್ವದ ಕೊರತೆಯನ್ನು ನಿವಾರಿಸುವ ಪ್ರಯತ್ನದ ಭಾಗವಾಗಿ ನಿರ್ಮಿಸಿತು. ಭಾರತದ ಭಾಷಾ ಪರಿಸರವು ವಿಶ್ವದಲ್ಲೇ ಅತ್ಯಂತ ವೈವಿಧ್ಯಮಯವಾಗಿರುವುದರಲ್ಲಿ ಒಂದಾಗಿದೆ; ಇದರಲ್ಲಿ ನೂರಾರು ಭಾಷೆಗಳು ಮತ್ತು ಸಾವಿರಾರು ಉಪಭಾಷೆಗಳು ಸೇರಿವೆ. ಆದರೂ, ಈಗಿರುವ ಬಹುತೇಕ ಮಾತಿನ ದತ್ತಸಂಗ್ರಹಗಳು ಉತ್ತಮ ಸಂಪನ್ಮೂಲ ಹೊಂದಿರುವ ಕೆಲವೇ ಭಾಷೆಗಳ ಮೇಲೆ ಕೇಂದ್ರೀಕರಿಸುತ್ತವೆ. ದೇಶದ ಭೌಗೋಳಿಕ ಮತ್ತು ಭಾಷಾತ್ಮಕವಾಗಿ ವೈವಿಧ್ಯಮಯ ಪ್ರದೇಶಗಳಲ್ಲಿ ದೊಡ್ಡ ಪ್ರಮಾಣದ ಕ್ಷೇತ್ರಮಟ್ಟದ ದತ್ತಾಂಶ ಸಂಗ್ರಹಣೆಯನ್ನು ನಡೆಸುವ ಮೂಲಕ, ಈ ಸೇವೆ ಕಡಿಮೆ ದೊರೆಯುವ ಭಾಷಾ ವಲಯಕ್ಕಾಗಿ ತರಬೇತಿ ದತ್ತಾಂಶದ ಲಭ್ಯತೆಯನ್ನು ವಿಸ್ತರಿಸಲು VAANI ಅನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಲಾಯಿತು.

ನಿಯಂತ್ರಿತ ಸ್ಟುಡಿಯೋ ಧ್ವನಿಮುದ್ರಣಗಳ ಮೇಲೆ ಅವಲಂಬಿಸದೇ, ನೈಜ ಪ್ರಾದೇಶಿಕ ಮತ್ತು ಉಪಭಾಷಾ ವೈವಿಧ್ಯತೆಯನ್ನು ಹಿಡಿಯುವ ಉದ್ದೇಶಪೂರ್ವಕ ಪ್ರಯತ್ನವನ್ನು ಪ್ರತಿಬಿಂಬಿಸುವಂತೆ, 22 ಭಾರತೀಯ ರಾಜ್ಯಗಳ 120 ಜಿಲ್ಲೆಗಳಲ್ಲಿರುವ ಸುಮಾರು 110,000 ಮಾತನಾಡುವವರಿಂದ ದತ್ತಾಂಶವನ್ನು ಸಂಗ್ರಹಿಸಲಾಯಿತು. ಈ ದತ್ತಸಂಗ್ರಹವು Hindi, Tamil, Telugu, Bengali, Kannada ಮತ್ತು Malayalam ಮುಂತಾದ ಪ್ರಮುಖ ಅನುಸೂಚಿತ ಭಾಷೆಗಳಿಂದ ಹಿಡಿದು Gondi, Santali, Kurukh, Wancho ಮತ್ತು Tenyidie ಸೇರಿದಂತೆ ಅನೇಕ ಪ್ರಾದೇಶಿಕ ರೂಪಗಳು ಮತ್ತು ಆದಿವಾಸಿ ಭಾಷೆಗಳವರೆಗೆ, ಒಟ್ಟು 86 ಭಾಷೆಗಳು ಮತ್ತು ಉಪಭಾಷೆಗಳನ್ನು ಒಳಗೊಂಡಿದೆ.

ದತ್ತಸಂಗ್ರಹದ ಸಂಯೋಜನೆ ಮತ್ತು ಪ್ರಮುಖ ವೈಶಿಷ್ಟ್ಯಗಳು

ಒಟ್ಟು ಸುಮಾರು 21,500 ಗಂಟೆಗಳ ಧ್ವನಿಯನ್ನು ಒಳಗೊಂಡಿರುವ VAANI, ಭಾರತೀಯ ಭಾಷೆಗಳ ಮೇಲೆ ಕೇಂದ್ರೀಕೃತವಾಗಿರುವ ಅತಿದೊಡ್ಡ ಬಹುಭಾಷಾ ಮಾತಿನ ಕಾರ್ಪಸ್‌ಗಳಲ್ಲಿ ಒಂದಾಗಿದೆ. ಇದರಲ್ಲಿ 835 ಗಂಟೆಗಳ ಧ್ವನಿಗೆ ಲಿಪ್ಯಂತರಣೆ ಮಾಡಲಾಗಿದೆ, ಇದರಿಂದ ಸಂಗ್ರಹದ ಒಂದು ಭಾಗಕ್ಕೆ ground-truth ಪಠ್ಯ ಟಿಪ್ಪಣಿಗಳು ಲಭ್ಯವಾಗುತ್ತವೆ. ಈ ದತ್ತಸಂಗ್ರಹವು ಬಹುಮಾಧ್ಯಮ ಅಂಶಗಳನ್ನೂ ಒಳಗೊಂಡಿದ್ದು, ಸಾಂಪ್ರದಾಯಿಕ ಮಾತು-ಸಂಬಂಧಿತ ಕಾರ್ಯಗಳಾಚೆಯೂ ಇದರ ಬಳಕೆಗೆ ಅವಕಾಶ ಕಲ್ಪಿಸುತ್ತದೆ.

ದತ್ತಸಂಗ್ರಹದ ಪ್ರಮುಖ ಲಕ್ಷಣಗಳು ಇವು:

86 ಭಾಷೆಗಳು ಮತ್ತು ಉಪಭಾಷೆಗಳ ವ್ಯಾಪ್ತಿ, ಇದರಲ್ಲಿ ಅನೇಕ ಕಡಿಮೆ-ಸಂಪನ್ಮೂಲ ಮತ್ತು ಆದಿವಾಸಿ ರೂಪಗಳು ಸೇರಿವೆ
ವೈವಿಧ್ಯಮಯ ಭೌಗೋಳಿಕ ಮತ್ತು ಜನಸಾಂಖ್ಯಿಕ ಹಿನ್ನೆಲೆಗಳಿಂದ ಬಂದ ಸುಮಾರು 110,000 ಮಾತನಾಡುವವರ ಕೊಡುಗೆಗಳು
ಒಟ್ಟು 21,500 ಗಂಟೆಗಳ ಧ್ವನಿ, ಇದರಲ್ಲಿ 835 ಗಂಟೆಗಳ ಲಿಪ್ಯಂತರಿತ ಮಾತು ಸೇರಿದೆ
22 ಭಾರತೀಯ ರಾಜ್ಯಗಳ 120 ಜಿಲ್ಲೆಗಳ ವ್ಯಾಪ್ತಿಯ ಕ್ಷೇತ್ರಮಟ್ಟದ ಧ್ವನಿಮುದ್ರಣಗಳು
CC BY 4.0 ಪರವಾನಗಿಯಡಿ ಬಿಡುಗಡೆ ಮಾಡಲಾಗಿದೆ, ಇದರಿಂದ ಉಲ್ಲೇಖದೊಂದಿಗೆ ವ್ಯಾಪಕ ಮರುಬಳಕೆ ಸಾಧ್ಯ
ಏಕಮಾಧ್ಯಮ ಮತ್ತು ಬಹುಮಾಧ್ಯಮ ಸಂಶೋಧನಾ ಅನ್ವಯಿಕೆಗಳಿಗೆ ಬೆಂಬಲ

ಬೆಂಬಲಿತ ಕಾರ್ಯಗಳು ಮತ್ತು ಬಳಕೆ ಸಂದರ್ಭಗಳು

VAANI ಅನ್ನು ವ್ಯಾಪಕವಾದ ಮಾತು ಮತ್ತು ಭಾಷಾ ಸಂಸ್ಕರಣಾ ಕಾರ್ಯಗಳಿಗೆ ಸಂಪನ್ಮೂಲವಾಗಿ ಸೇವೆ ಸಲ್ಲಿಸುವಂತೆ ವಿನ್ಯಾಸಗೊಳಿಸಲಾಗಿದೆ. ಸಂಶೋಧಕರು ಮತ್ತು ಅಭಿವೃದ್ಧಿಪರರು ಇದನ್ನು automatic speech recognition (ASR) ವ್ಯವಸ್ಥೆಗಳ ತರಬೇತಿ ಮತ್ತು ಮೌಲ್ಯಮಾಪನಕ್ಕೆ, text-to-speech (TTS) ಸಂಶ್ಲೇಷಣೆಗೆ, ಮಾತನಾಡುವವರ ಗುರುತಿಸುವಿಕೆಗೆ ಮತ್ತು ಭಾಷಾ ಗುರುತಿಸುವಿಕೆ ಮಾದರಿಗಳಿಗೆ ಬಳಸಬಹುದು. ಈ ದತ್ತಸಂಗ್ರಹವು speech enhancement ಮತ್ತು multimodal large language models (LLMs) ಅಭಿವೃದ್ಧಿಗೂ ಬೆಂಬಲ ನೀಡುತ್ತದೆ. ಇದರ ವಿಶಾಲ ಭಾಷಾ ವ್ಯಾಪ್ತಿ, ಭಾರತದ ವೈವಿಧ್ಯಮಯ ಭಾಷಾ ಪರಿಸರದಾದ್ಯಂತ ಕಾರ್ಯನಿರ್ವಹಿಸಲು ಉದ್ದೇಶಿತ ವ್ಯವಸ್ಥೆಗಳ ಮಾನದಂಡ ನಿರ್ಣಯಕ್ಕೆ ಇದನ್ನು ವಿಶೇಷವಾಗಿ ಪ್ರಸ್ತುತವಾಗಿಸುತ್ತದೆ.

ಹಿಂದಿನ ಮಾತಿನ ದತ್ತಾಂಶ ಅಲ್ಪವಾಗಿರುವ ಅಥವಾ ಇಲ್ಲದಿರುವ ಅನೇಕ ಕಡಿಮೆ-ಸಂಪನ್ಮೂಲ ಭಾಷೆಗಳು ಮತ್ತು ಉಪಭಾಷೆಗಳು ಇದರಲ್ಲಿ ಸೇರಿರುವುದರಿಂದ, ಸಮಾವೇಶಕಾರಿ ಭಾಷಾ ತಂತ್ರಜ್ಞಾನಗಳನ್ನು ನಿರ್ಮಿಸುವತ್ತ ಗಮನಹರಿಸಿರುವ ಸಂಶೋಧಕರಿಗೆ VAANI ವಿಶೇಷ ಮೌಲ್ಯ ಹೊಂದಿದೆ. ಮುಖ್ಯವಾಹಿನಿಯ AI ಅಭಿವೃದ್ಧಿಯಲ್ಲಿ ಐತಿಹಾಸಿಕವಾಗಿ ಗೈರಾಗಿದ್ದ ಭಾಷಾ ಸಮುದಾಯಗಳಿಗೆ ಸೇವೆ ಸಲ್ಲಿಸಬಹುದಾದ ASR ಮತ್ತು ನೈಸರ್ಗಿಕ ಭಾಷಾ ಸಂಸ್ಕರಣಾ ಸಾಧನಗಳನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಲು ಇದು ಒಂದು ಆಧಾರವನ್ನು ಒದಗಿಸುತ್ತದೆ.

ಭಾರತೀಯ ಭಾಷಾ ತಂತ್ರಜ್ಞಾನಕ್ಕೆ ಮಹತ್ವ

VAANI ಯ ಪ್ರಮಾಣ ಮತ್ತು ಭಾಷಾತ್ಮಕ ವೈವಿಧ್ಯತೆ, ವಿಶೇಷವಾಗಿ ದಕ್ಷಿಣ ಏಷ್ಯಾದ ಭಾಷೆಗಳ ಸಂದರ್ಭದಲ್ಲಿ, ಬಹುಭಾಷಾ ಮಾತಿನ ಸಂಶೋಧನಾ ಕ್ಷೇತ್ರಕ್ಕೆ ಗಮನಾರ್ಹ ಕೊಡುಗೆಯಾಗಿದೆ. ವ್ಯಾಪಕವಾಗಿ ಮಾತನಾಡುವ ಭಾಷೆಗಳ ಜೊತೆಗೆ ಆದಿವಾಸಿ, ಗ್ರಾಮೀಣ ಮತ್ತು ಪ್ರಾದೇಶಿಕ ಸಮುದಾಯಗಳ ಮಾತಿನ ರೂಪಗಳನ್ನು ದಾಖಲಿಸುವ ಮೂಲಕ, ಗಣಕಯಂತ್ರಾಧಾರಿತ ಸಂಪನ್ಮೂಲಗಳಲ್ಲಿ ಅಪರೂಪವಾಗಿ ಪ್ರತಿನಿಧಿಸಲ್ಪಡುವ ಭಾರತದ ಭಾಷಾ ಪರಂಪರೆಯ ಒಂದು ಆಯಾಮವನ್ನು ಈ ದತ್ತಸಂಗ್ರಹವು ಹಿಡಿದಿಡುತ್ತದೆ. ಇದರ ಮುಕ್ತ ಪರವಾನಗಿ, ಹೆಚ್ಚು ಸಮಾವೇಶಕಾರಿ ಮತ್ತು ಪ್ರತಿನಿಧಿತ್ವಪೂರ್ಣ ಮಾತಿನ ತಂತ್ರಜ್ಞಾನಗಳತ್ತ ಕೆಲಸ ಮಾಡುತ್ತಿರುವ ಶೈಕ್ಷಣಿಕ ಸಂಸ್ಥೆಗಳು, ಸರ್ಕಾರಿ ಸಂಸ್ಥೆಗಳು ಮತ್ತು ಕೈಗಾರಿಕಾ ಸಂಶೋಧಕರ ಬಳಕೆಯನ್ನು ಸುಗಮಗೊಳಿಸುತ್ತದೆ.

VAANI

ವರ್ಗಗಳು

ಥೀಮ್‌ಗಳು

ಹಿನ್ನೆಲೆ ಮತ್ತು ಅಭಿವೃದ್ಧಿ

ದತ್ತಸಂಗ್ರಹದ ಸಂಯೋಜನೆ ಮತ್ತು ಪ್ರಮುಖ ವೈಶಿಷ್ಟ್ಯಗಳು

ಬೆಂಬಲಿತ ಕಾರ್ಯಗಳು ಮತ್ತು ಬಳಕೆ ಸಂದರ್ಭಗಳು

ಭಾರತೀಯ ಭಾಷಾ ತಂತ್ರಜ್ಞಾನಕ್ಕೆ ಮಹತ್ವ