ವರ್ಗಗಳು
ಥೀಮ್ಗಳು
VAANI ಎಂಬುದು Indian Institute of Science (IISc), Bangalore ಅಭಿವೃದ್ಧಿಪಡಿಸಿದ ದೊಡ್ಡ ಪ್ರಮಾಣದ ಬಹುಭಾಷಾ ಮಾತಿನ ದತ್ತಸಂಗ್ರಹವಾಗಿದ್ದು, ಇದರಲ್ಲಿ ಭಾರತದ 22 ರಾಜ್ಯಗಳ 120 ಜಿಲ್ಲೆಗಳಲ್ಲಿರುವ ಸುಮಾರು 110,000 ಮಾತನಾಡುವವರಿಂದ ಸಂಗ್ರಹಿಸಲಾದ ಅಂದಾಜು 21,500 ಗಂಟೆಗಳ ಆಡಿಯೊ ಒಳಗೊಂಡಿದೆ. ಇದು ಭಾರತದಾದ್ಯಂತ ಮಾತನಾಡಲಾಗುವ 86 ಭಾಷೆಗಳು ಮತ್ತು ಉಪಭಾಷೆಗಳನ್ನು ಒಳಗೊಂಡಿದ್ದು, ಪ್ರಮುಖ ಅನುಸೂಚಿತ ಭಾಷೆಗಳ ಜೊತೆಗೆ ಅನೇಕ ಪ್ರಾದೇಶಿಕ ಮತ್ತು ಜನಜಾತಿ ವೈವಿಧ್ಯಗಳನ್ನೂ ಒಳಗೊಂಡಿದೆ; ಇದರಲ್ಲಿ 835 ಗಂಟೆಗಳ ಲಿಪ್ಯಂತರಿತ ಮಾತು ಸಹ ಇದೆ.
ಈ ದತ್ತಸಂಗ್ರಹವನ್ನು ಸ್ವಯಂಚಾಲಿತ ಮಾತು ಗುರುತಿಸುವಿಕೆ, ಪಠ್ಯದಿಂದ-ಮಾತು ಸಂಶ್ಲೇಷಣೆ, ಮಾತನಾಡುವವರ ಗುರುತಿಸುವಿಕೆ, ಭಾಷಾ ಗುರುತಿಸುವಿಕೆ, ಮಾತಿನ ಗುಣಮಟ್ಟ ವೃದ್ಧಿ, ಮತ್ತು ಬಹುಮಾಧ್ಯಮ ಭಾಷಾ ಮಾದರಿ ಅಭಿವೃದ್ಧಿ ಸೇರಿದಂತೆ ವಿವಿಧ ಮಾತು ಮತ್ತು ಭಾಷಾ ಕಾರ್ಯಗಳಿಗೆ ಬೆಂಬಲ ನೀಡುವಂತೆ ವಿನ್ಯಾಸಗೊಳಿಸಲಾಗಿದೆ. CC BY 4.0 ಪರವಾನಗಿಯಡಿ ಬಿಡುಗಡೆಗೊಂಡಿರುವ ಇದು ಮುಖ್ಯವಾಗಿ AI ವ್ಯವಸ್ಥೆಗಳ ತರಬೇತಿ ಮತ್ತು ಮಾನದಂಡ ನಿರ್ಧಾರಕ್ಕಾಗಿ ಉದ್ದೇಶಿಸಲ್ಪಟ್ಟಿದ್ದು, ವಿಶೇಷವಾಗಿ ಕಡಿಮೆ ಸಂಪನ್ಮೂಲ ಹೊಂದಿರುವ ಮತ್ತು ಸಮರ್ಪಕ ಪ್ರತಿನಿಧಿತ್ವವಿಲ್ಲದ ಭಾರತೀಯ ಭಾಷೆಗಳ ಮೇಲೆ ಕೆಲಸ ಮಾಡುವ ಸಂಶೋಧಕರು ಮತ್ತು ಅಭಿವೃದ್ಧಿಪರರಿಗೆ ಅತ್ಯಂತ ಪ್ರಾಸಂಗಿಕವಾಗಿದೆ.
ಹಿನ್ನೆಲೆ ಮತ್ತು ಅಭಿವೃದ್ಧಿ
VAANI (ಹಲವಾರು ಭಾರತೀಯ ಭಾಷೆಗಳಲ್ಲಿ ಇದರ ಅರ್ಥ "ಧ್ವನಿ" ಅಥವಾ "ಮಾತು") ಅನ್ನು Bangaloreನ Indian Institute of Science (IISc) ಭಾರತೀಯ ಭಾಷೆಗಳಿಗಾಗಿ ಮಾತಿನ ದತ್ತಾಂಶ ಸಂಪನ್ಮೂಲಗಳಲ್ಲಿ ಇರುವ ಮಹತ್ವದ ಕೊರತೆಯನ್ನು ನಿವಾರಿಸುವ ಪ್ರಯತ್ನದ ಭಾಗವಾಗಿ ನಿರ್ಮಿಸಿತು. ಭಾರತದ ಭಾಷಾ ಪರಿಸರವು ವಿಶ್ವದಲ್ಲೇ ಅತ್ಯಂತ ವೈವಿಧ್ಯಮಯವಾಗಿರುವುದರಲ್ಲಿ ಒಂದಾಗಿದೆ; ಇದರಲ್ಲಿ ನೂರಾರು ಭಾಷೆಗಳು ಮತ್ತು ಸಾವಿರಾರು ಉಪಭಾಷೆಗಳು ಸೇರಿವೆ. ಆದರೂ, ಈಗಿರುವ ಬಹುತೇಕ ಮಾತಿನ ದತ್ತಸಂಗ್ರಹಗಳು ಉತ್ತಮ ಸಂಪನ್ಮೂಲ ಹೊಂದಿರುವ ಕೆಲವೇ ಭಾಷೆಗಳ ಮೇಲೆ ಕೇಂದ್ರೀಕರಿಸುತ್ತವೆ. ದೇಶದ ಭೌಗೋಳಿಕ ಮತ್ತು ಭಾಷಾತ್ಮಕವಾಗಿ ವೈವಿಧ್ಯಮಯ ಪ್ರದೇಶಗಳಲ್ಲಿ ದೊಡ್ಡ ಪ್ರಮಾಣದ ಕ್ಷೇತ್ರಮಟ್ಟದ ದತ್ತಾಂಶ ಸಂಗ್ರಹಣೆಯನ್ನು ನಡೆಸುವ ಮೂಲಕ, ಈ ಸೇವೆ ಕಡಿಮೆ ದೊರೆಯುವ ಭಾಷಾ ವಲಯಕ್ಕಾಗಿ ತರಬೇತಿ ದತ್ತಾಂಶದ ಲಭ್ಯತೆಯನ್ನು ವಿಸ್ತರಿಸಲು VAANI ಅನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಲಾಯಿತು.
ನಿಯಂತ್ರಿತ ಸ್ಟುಡಿಯೋ ಧ್ವನಿಮುದ್ರಣಗಳ ಮೇಲೆ ಅವಲಂಬಿಸದೇ, ನೈಜ ಪ್ರಾದೇಶಿಕ ಮತ್ತು ಉಪಭಾಷಾ ವೈವಿಧ್ಯತೆಯನ್ನು ಹಿಡಿಯುವ ಉದ್ದೇಶಪೂರ್ವಕ ಪ್ರಯತ್ನವನ್ನು ಪ್ರತಿಬಿಂಬಿಸುವಂತೆ, 22 ಭಾರತೀಯ ರಾಜ್ಯಗಳ 120 ಜಿಲ್ಲೆಗಳಲ್ಲಿರುವ ಸುಮಾರು 110,000 ಮಾತನಾಡುವವರಿಂದ ದತ್ತಾಂಶವನ್ನು ಸಂಗ್ರಹಿಸಲಾಯಿತು. ಈ ದತ್ತಸಂಗ್ರಹವು Hindi, Tamil, Telugu, Bengali, Kannada ಮತ್ತು Malayalam ಮುಂತಾದ ಪ್ರಮುಖ ಅನುಸೂಚಿತ ಭಾಷೆಗಳಿಂದ ಹಿಡಿದು Gondi, Santali, Kurukh, Wancho ಮತ್ತು Tenyidie ಸೇರಿದಂತೆ ಅನೇಕ ಪ್ರಾದೇಶಿಕ ರೂಪಗಳು ಮತ್ತು ಆದಿವಾಸಿ ಭಾಷೆಗಳವರೆಗೆ, ಒಟ್ಟು 86 ಭಾಷೆಗಳು ಮತ್ತು ಉಪಭಾಷೆಗಳನ್ನು ಒಳಗೊಂಡಿದೆ.
ದತ್ತಸಂಗ್ರಹದ ಸಂಯೋಜನೆ ಮತ್ತು ಪ್ರಮುಖ ವೈಶಿಷ್ಟ್ಯಗಳು
ಒಟ್ಟು ಸುಮಾರು 21,500 ಗಂಟೆಗಳ ಧ್ವನಿಯನ್ನು ಒಳಗೊಂಡಿರುವ VAANI, ಭಾರತೀಯ ಭಾಷೆಗಳ ಮೇಲೆ ಕೇಂದ್ರೀಕೃತವಾಗಿರುವ ಅತಿದೊಡ್ಡ ಬಹುಭಾಷಾ ಮಾತಿನ ಕಾರ್ಪಸ್ಗಳಲ್ಲಿ ಒಂದಾಗಿದೆ. ಇದರಲ್ಲಿ 835 ಗಂಟೆಗಳ ಧ್ವನಿಗೆ ಲಿಪ್ಯಂತರಣೆ ಮಾಡಲಾಗಿದೆ, ಇದರಿಂದ ಸಂಗ್ರಹದ ಒಂದು ಭಾಗಕ್ಕೆ ground-truth ಪಠ್ಯ ಟಿಪ್ಪಣಿಗಳು ಲಭ್ಯವಾಗುತ್ತವೆ. ಈ ದತ್ತಸಂಗ್ರಹವು ಬಹುಮಾಧ್ಯಮ ಅಂಶಗಳನ್ನೂ ಒಳಗೊಂಡಿದ್ದು, ಸಾಂಪ್ರದಾಯಿಕ ಮಾತು-ಸಂಬಂಧಿತ ಕಾರ್ಯಗಳಾಚೆಯೂ ಇದರ ಬಳಕೆಗೆ ಅವಕಾಶ ಕಲ್ಪಿಸುತ್ತದೆ.
ದತ್ತಸಂಗ್ರಹದ ಪ್ರಮುಖ ಲಕ್ಷಣಗಳು ಇವು:
- 86 ಭಾಷೆಗಳು ಮತ್ತು ಉಪಭಾಷೆಗಳ ವ್ಯಾಪ್ತಿ, ಇದರಲ್ಲಿ ಅನೇಕ ಕಡಿಮೆ-ಸಂಪನ್ಮೂಲ ಮತ್ತು ಆದಿವಾಸಿ ರೂಪಗಳು ಸೇರಿವೆ
- ವೈವಿಧ್ಯಮಯ ಭೌಗೋಳಿಕ ಮತ್ತು ಜನಸಾಂಖ್ಯಿಕ ಹಿನ್ನೆಲೆಗಳಿಂದ ಬಂದ ಸುಮಾರು 110,000 ಮಾತನಾಡುವವರ ಕೊಡುಗೆಗಳು
- ಒಟ್ಟು 21,500 ಗಂಟೆಗಳ ಧ್ವನಿ, ಇದರಲ್ಲಿ 835 ಗಂಟೆಗಳ ಲಿಪ್ಯಂತರಿತ ಮಾತು ಸೇರಿದೆ
- 22 ಭಾರತೀಯ ರಾಜ್ಯಗಳ 120 ಜಿಲ್ಲೆಗಳ ವ್ಯಾಪ್ತಿಯ ಕ್ಷೇತ್ರಮಟ್ಟದ ಧ್ವನಿಮುದ್ರಣಗಳು
- CC BY 4.0 ಪರವಾನಗಿಯಡಿ ಬಿಡುಗಡೆ ಮಾಡಲಾಗಿದೆ, ಇದರಿಂದ ಉಲ್ಲೇಖದೊಂದಿಗೆ ವ್ಯಾಪಕ ಮರುಬಳಕೆ ಸಾಧ್ಯ
- ಏಕಮಾಧ್ಯಮ ಮತ್ತು ಬಹುಮಾಧ್ಯಮ ಸಂಶೋಧನಾ ಅನ್ವಯಿಕೆಗಳಿಗೆ ಬೆಂಬಲ
ಬೆಂಬಲಿತ ಕಾರ್ಯಗಳು ಮತ್ತು ಬಳಕೆ ಸಂದರ್ಭಗಳು
VAANI ಅನ್ನು ವ್ಯಾಪಕವಾದ ಮಾತು ಮತ್ತು ಭಾಷಾ ಸಂಸ್ಕರಣಾ ಕಾರ್ಯಗಳಿಗೆ ಸಂಪನ್ಮೂಲವಾಗಿ ಸೇವೆ ಸಲ್ಲಿಸುವಂತೆ ವಿನ್ಯಾಸಗೊಳಿಸಲಾಗಿದೆ. ಸಂಶೋಧಕರು ಮತ್ತು ಅಭಿವೃದ್ಧಿಪರರು ಇದನ್ನು automatic speech recognition (ASR) ವ್ಯವಸ್ಥೆಗಳ ತರಬೇತಿ ಮತ್ತು ಮೌಲ್ಯಮಾಪನಕ್ಕೆ, text-to-speech (TTS) ಸಂಶ್ಲೇಷಣೆಗೆ, ಮಾತನಾಡುವವರ ಗುರುತಿಸುವಿಕೆಗೆ ಮತ್ತು ಭಾಷಾ ಗುರುತಿಸುವಿಕೆ ಮಾದರಿಗಳಿಗೆ ಬಳಸಬಹುದು. ಈ ದತ್ತಸಂಗ್ರಹವು speech enhancement ಮತ್ತು multimodal large language models (LLMs) ಅಭಿವೃದ್ಧಿಗೂ ಬೆಂಬಲ ನೀಡುತ್ತದೆ. ಇದರ ವಿಶಾಲ ಭಾಷಾ ವ್ಯಾಪ್ತಿ, ಭಾರತದ ವೈವಿಧ್ಯಮಯ ಭಾಷಾ ಪರಿಸರದಾದ್ಯಂತ ಕಾರ್ಯನಿರ್ವಹಿಸಲು ಉದ್ದೇಶಿತ ವ್ಯವಸ್ಥೆಗಳ ಮಾನದಂಡ ನಿರ್ಣಯಕ್ಕೆ ಇದನ್ನು ವಿಶೇಷವಾಗಿ ಪ್ರಸ್ತುತವಾಗಿಸುತ್ತದೆ.
ಹಿಂದಿನ ಮಾತಿನ ದತ್ತಾಂಶ ಅಲ್ಪವಾಗಿರುವ ಅಥವಾ ಇಲ್ಲದಿರುವ ಅನೇಕ ಕಡಿಮೆ-ಸಂಪನ್ಮೂಲ ಭಾಷೆಗಳು ಮತ್ತು ಉಪಭಾಷೆಗಳು ಇದರಲ್ಲಿ ಸೇರಿರುವುದರಿಂದ, ಸಮಾವೇಶಕಾರಿ ಭಾಷಾ ತಂತ್ರಜ್ಞಾನಗಳನ್ನು ನಿರ್ಮಿಸುವತ್ತ ಗಮನಹರಿಸಿರುವ ಸಂಶೋಧಕರಿಗೆ VAANI ವಿಶೇಷ ಮೌಲ್ಯ ಹೊಂದಿದೆ. ಮುಖ್ಯವಾಹಿನಿಯ AI ಅಭಿವೃದ್ಧಿಯಲ್ಲಿ ಐತಿಹಾಸಿಕವಾಗಿ ಗೈರಾಗಿದ್ದ ಭಾಷಾ ಸಮುದಾಯಗಳಿಗೆ ಸೇವೆ ಸಲ್ಲಿಸಬಹುದಾದ ASR ಮತ್ತು ನೈಸರ್ಗಿಕ ಭಾಷಾ ಸಂಸ್ಕರಣಾ ಸಾಧನಗಳನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಲು ಇದು ಒಂದು ಆಧಾರವನ್ನು ಒದಗಿಸುತ್ತದೆ.
ಭಾರತೀಯ ಭಾಷಾ ತಂತ್ರಜ್ಞಾನಕ್ಕೆ ಮಹತ್ವ
VAANI ಯ ಪ್ರಮಾಣ ಮತ್ತು ಭಾಷಾತ್ಮಕ ವೈವಿಧ್ಯತೆ, ವಿಶೇಷವಾಗಿ ದಕ್ಷಿಣ ಏಷ್ಯಾದ ಭಾಷೆಗಳ ಸಂದರ್ಭದಲ್ಲಿ, ಬಹುಭಾಷಾ ಮಾತಿನ ಸಂಶೋಧನಾ ಕ್ಷೇತ್ರಕ್ಕೆ ಗಮನಾರ್ಹ ಕೊಡುಗೆಯಾಗಿದೆ. ವ್ಯಾಪಕವಾಗಿ ಮಾತನಾಡುವ ಭಾಷೆಗಳ ಜೊತೆಗೆ ಆದಿವಾಸಿ, ಗ್ರಾಮೀಣ ಮತ್ತು ಪ್ರಾದೇಶಿಕ ಸಮುದಾಯಗಳ ಮಾತಿನ ರೂಪಗಳನ್ನು ದಾಖಲಿಸುವ ಮೂಲಕ, ಗಣಕಯಂತ್ರಾಧಾರಿತ ಸಂಪನ್ಮೂಲಗಳಲ್ಲಿ ಅಪರೂಪವಾಗಿ ಪ್ರತಿನಿಧಿಸಲ್ಪಡುವ ಭಾರತದ ಭಾಷಾ ಪರಂಪರೆಯ ಒಂದು ಆಯಾಮವನ್ನು ಈ ದತ್ತಸಂಗ್ರಹವು ಹಿಡಿದಿಡುತ್ತದೆ. ಇದರ ಮುಕ್ತ ಪರವಾನಗಿ, ಹೆಚ್ಚು ಸಮಾವೇಶಕಾರಿ ಮತ್ತು ಪ್ರತಿನಿಧಿತ್ವಪೂರ್ಣ ಮಾತಿನ ತಂತ್ರಜ್ಞಾನಗಳತ್ತ ಕೆಲಸ ಮಾಡುತ್ತಿರುವ ಶೈಕ್ಷಣಿಕ ಸಂಸ್ಥೆಗಳು, ಸರ್ಕಾರಿ ಸಂಸ್ಥೆಗಳು ಮತ್ತು ಕೈಗಾರಿಕಾ ಸಂಶೋಧಕರ ಬಳಕೆಯನ್ನು ಸುಗಮಗೊಳಿಸುತ್ತದೆ.