ਸ਼੍ਰੇਣੀਆਂ
ਥੀਮਾਂ
VAANI ਇੱਕ ਵੱਡੇ ਪੱਧਰ ਦਾ ਬਹੁਭਾਸ਼ਾਈ ਬੋਲੀ ਡਾਟਾਸੈੱਟ ਹੈ, ਜੋ ਬੈਂਗਲੁਰੂ ਦੇ ਇੰਡੀਅਨ ਇੰਸਟੀਚਿਊਟ ਆਫ ਸਾਇੰਸ (IISc) ਵੱਲੋਂ ਵਿਕਸਿਤ ਕੀਤਾ ਗਿਆ ਹੈ। ਇਸ ਵਿੱਚ ਲਗਭਗ 21,500 ਘੰਟਿਆਂ ਦੀ ਆਡੀਓ ਸ਼ਾਮਲ ਹੈ, ਜੋ ਲਗਭਗ 110,000 ਬੋਲਣ ਵਾਲਿਆਂ ਤੋਂ 22 ਭਾਰਤੀ ਰਾਜਾਂ ਦੇ 120 ਜ਼ਿਲ੍ਹਿਆਂ ਵਿੱਚ ਇਕੱਠੀ ਕੀਤੀ ਗਈ ਹੈ। ਇਹ ਭਾਰਤ ਭਰ ਵਿੱਚ ਬੋਲੀ ਜਾਣ ਵਾਲੀਆਂ 86 ਭਾਸ਼ਾਵਾਂ ਅਤੇ ਬੋਲੀਆਂ ਨੂੰ ਕਵਰ ਕਰਦਾ ਹੈ—ਜਿਸ ਵਿੱਚ ਮੁੱਖ ਤਹਿ-ਸ਼ੁਡਿਊਲ ਭਾਸ਼ਾਵਾਂ ਦੇ ਨਾਲ ਨਾਲ ਕਈ ਖੇਤਰੀ ਅਤੇ ਕਬਾਇਲੀ ਰੂਪ ਵੀ ਸ਼ਾਮਲ ਹਨ—ਅਤੇ ਇਸ ਵਿੱਚ 835 ਘੰਟਿਆਂ ਦੀ ਟ੍ਰਾਂਸਕ੍ਰਾਈਬ ਕੀਤੀ ਬੋਲੀ ਵੀ ਹੈ।
ਇਹ ਡਾਟਾਸੈੱਟ ਕਈ ਤਰ੍ਹਾਂ ਦੇ ਬੋਲੀ ਅਤੇ ਭਾਸ਼ਾ ਸੰਬੰਧੀ ਕੰਮਾਂ ਨੂੰ ਸਮਰਥਨ ਦੇਣ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ, ਜਿਵੇਂ ਕਿ ਆਟੋਮੈਟਿਕ ਸਪੀਚ ਰਿਕਗਨੀਸ਼ਨ, ਟੈਕਸਟ-ਟੂ-ਸਪੀਚ ਸਿੰਥੇਸਿਸ, ਬੋਲਣ ਵਾਲੇ ਦੀ ਪਛਾਣ, ਭਾਸ਼ਾ ਦੀ ਪਛਾਣ, ਬੋਲੀ ਵਿੱਚ ਸੁਧਾਰ (speech enhancement), ਅਤੇ ਮਲਟੀਮੋਡਲ ਭਾਸ਼ਾਈ ਮਾਡਲਾਂ ਦਾ ਵਿਕਾਸ। CC BY 4.0 ਲਾਇਸੈਂਸ ਹੇਠ ਜਾਰੀ ਕੀਤਾ ਗਿਆ, ਇਹ ਮੁੱਖ ਤੌਰ ’ਤੇ AI ਸਿਸਟਮਾਂ ਦੀ ਟ੍ਰੇਨਿੰਗ ਅਤੇ ਬੈਂਚਮਾਰਕਿੰਗ ਲਈ ਬਣਾਇਆ ਗਿਆ ਹੈ, ਖਾਸ ਕਰਕੇ ਉਹ ਖੋਜਕਾਰਾਂ ਅਤੇ ਡਿਵੈਲਪਰਾਂ ਲਈ ਜੋ ਘੱਟ-ਸਰੋਤ ਅਤੇ ਘੱਟ ਪ੍ਰਤਿਨਿਧਿਤ ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ ’ਤੇ ਕੰਮ ਕਰ ਰਹੇ ਹਨ।
ਪਿਛੋਕੜ ਅਤੇ ਵਿਕਾਸ
VAANI (ਜਿਸਦਾ ਅਰਥ ਕਈ ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ ਵਿੱਚ “ਆਵਾਜ਼” ਜਾਂ “ਬੋਲਚਾਲ” ਹੈ) ਨੂੰ ਬੈਂਗਲੁਰੂ ਵਿੱਚ ਭਾਰਤੀ ਵਿਗਿਆਨ ਸੰਸਥਾਨ (IISc) ਵੱਲੋਂ ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ ਲਈ ਭਾਸ਼ਣ ਡਾਟਾ ਸਰੋਤਾਂ ਵਿੱਚ ਮੌਜੂਦ ਮਹੱਤਵਪੂਰਨ ਘਾਟ ਨੂੰ ਦੂਰ ਕਰਨ ਦੇ ਯਤਨ ਦੇ ਹਿੱਸੇ ਵਜੋਂ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਸੀ। ਭਾਰਤ ਦਾ ਭਾਸ਼ਾਈ ਪਰਿਦ੍ਰਿਸ਼ ਦੁਨੀਆ ਦੇ ਸਭ ਤੋਂ ਵੱਧ ਵਿਭਿੰਨ ਪਰਿਦ੍ਰਿਸ਼ਾਂ ਵਿੱਚੋਂ ਇੱਕ ਹੈ, ਜਿਸ ਵਿੱਚ ਸੈਂਕੜੇ ਭਾਸ਼ਾਵਾਂ ਅਤੇ ਹਜ਼ਾਰਾਂ ਬੋਲੀਆਂ ਸ਼ਾਮਲ ਹਨ, ਫਿਰ ਵੀ ਮੌਜੂਦਾ ਬਹੁਤੇ ਭਾਸ਼ਣ ਡਾਟਾਸੈੱਟ ਜ਼ਿਆਦਾਤਰ ਕੁਝ ਹੀ ਚੰਗੇ ਤਰੀਕੇ ਨਾਲ ਸਰੋਤਾਂ ਵਾਲੀਆਂ ਭਾਸ਼ਾਵਾਂ ‘ਤੇ ਕੇਂਦ੍ਰਿਤ ਹਨ। VAANI ਨੂੰ ਇਸ ਘੱਟ ਸੇਵਾ ਪ੍ਰਾਪਤ ਭਾਸ਼ਾਈ ਖੇਤਰ ਲਈ ਟ੍ਰੇਨਿੰਗ ਡਾਟਾ ਦੀ ਉਪਲਬਧਤਾ ਵਧਾਉਣ ਲਈ ਵਿਕਸਿਤ ਕੀਤਾ ਗਿਆ, ਜਿਸ ਵਿੱਚ ਦੇਸ਼ ਦੇ ਭੂਗੋਲਿਕ ਅਤੇ ਭਾਸ਼ਾਈ ਤੌਰ ‘ਤੇ ਵਿਭਿੰਨ ਖੇਤਰਾਂ ਵਿੱਚ ਵੱਡੇ ਪੱਧਰ ਦੀ ਫੀਲਡ ਡਾਟਾ ਇਕੱਠਾ ਕਰਨ ਦੀ ਪ੍ਰਕਿਰਿਆ ਕੀਤੀ ਗਈ।
ਡਾਟਾ ਲਗਭਗ 110,000 ਬੋਲਣ ਵਾਲਿਆਂ ਤੋਂ ਇਕੱਠਾ ਕੀਤਾ ਗਿਆ, ਜੋ 22 ਭਾਰਤੀ ਰਾਜਾਂ ਦੇ 120 ਜ਼ਿਲ੍ਹਿਆਂ ਵਿੱਚ ਫੈਲੇ ਹੋਏ ਸਨ। ਇਹ ਇੱਕ ਜਾਣਬੂਝ ਕੇ ਕੀਤਾ ਗਿਆ ਯਤਨ ਸੀ ਕਿ ਨਿਯੰਤਰਿਤ ਸਟੂਡੀਓ ਰਿਕਾਰਡਿੰਗਾਂ ‘ਤੇ ਨਿਰਭਰ ਹੋਣ ਦੀ ਬਜਾਏ ਅਸਲ ਖੇਤਰੀ ਅਤੇ ਬੋਲੀ ਸੰਬੰਧੀ ਭਿੰਨਤਾਵਾਂ ਨੂੰ ਕੈਪਚਰ ਕੀਤਾ ਜਾਵੇ। ਇਹ ਡਾਟਾਸੈੱਟ 86 ਭਾਸ਼ਾਵਾਂ ਅਤੇ ਬੋਲੀਆਂ ਨੂੰ ਕਵਰ ਕਰਦਾ ਹੈ—ਹਿੰਦੀ, ਤਾਮਿਲ, ਤੇਲਗੂ, ਬੰਗਾਲੀ, ਕੰਨੜ ਅਤੇ ਮਲਿਆਲਮ ਵਰਗੀਆਂ ਮੁੱਖ ਨਿਰਧਾਰਤ ਭਾਸ਼ਾਵਾਂ ਤੋਂ ਲੈ ਕੇ ਗੋਂਡੀ, ਸੰਤਾਲੀ, ਕੁੁਰੂਖ, ਵਾਂਚੋ ਅਤੇ ਟੇਨਿਯਿਡੀ ਵਰਗੀਆਂ ਕਈ ਖੇਤਰੀ ਕਿਸਮਾਂ ਅਤੇ ਕਬਾਇਲੀ ਭਾਸ਼ਾਵਾਂ ਤੱਕ, ਅਤੇ ਹੋਰ ਵੀ ਬਹੁਤ ਕੁਝ।
ਡਾਟਾਸੈੱਟ ਦੀ ਬਣਤਰ ਅਤੇ ਮੁੱਖ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ
VAANI ਕੁੱਲ ਮਿਲਾ ਕੇ ਲਗਭਗ 21,500 ਘੰਟਿਆਂ ਦੀ ਆਡੀਓ ਸ਼ਾਮਲ ਕਰਦਾ ਹੈ, ਜਿਸ ਕਰਕੇ ਇਹ ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ ‘ਤੇ ਕੇਂਦ੍ਰਿਤ ਸਭ ਤੋਂ ਵੱਡੇ ਬਹੁਭਾਸ਼ਾਈ ਭਾਸ਼ਣ ਕੋਰਪਸਾਂ ਵਿੱਚੋਂ ਇੱਕ ਹੈ। ਇਸ ਵਿੱਚੋਂ 835 ਘੰਟਿਆਂ ਨੂੰ ਟ੍ਰਾਂਸਕ੍ਰਾਈਬ ਕੀਤਾ ਗਿਆ ਹੈ, ਜੋ ਕੁੱਲ ਸੰਗ੍ਰਹਿ ਦੇ ਇੱਕ ਹਿੱਸੇ ਲਈ ਸੱਚਾਈ-ਅਧਾਰਿਤ ਟੈਕਸਟ ਐਨੋਟੇਸ਼ਨ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ। ਡਾਟਾਸੈੱਟ ਵਿੱਚ ਮਲਟੀਮੋਡਲ ਤੱਤ ਵੀ ਸ਼ਾਮਲ ਹਨ, ਜਿਸ ਨਾਲ ਇਹ ਰਵਾਇਤੀ ਭਾਸ਼ਣ ਕਾਰਜਾਂ ਤੋਂ ਇਲਾਵਾ ਹੋਰ ਵਰਤੋਂ ਲਈ ਉਪਯੋਗ ਬਣਦਾ ਹੈ।
ਡਾਟਾਸੈੱਟ ਦੀਆਂ ਮੁੱਖ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਇਹ ਹਨ:
- 86 ਭਾਸ਼ਾਵਾਂ ਅਤੇ ਬੋਲੀਆਂ ਦਾ ਕਵਰੇਜ, ਜਿਸ ਵਿੱਚ ਕਈ ਘੱਟ-ਸਰੋਤ ਅਤੇ ਕਬਾਇਲੀ ਕਿਸਮਾਂ ਸ਼ਾਮਲ ਹਨ
- ਵੱਖ-ਵੱਖ ਭੂਗੋਲਿਕ ਅਤੇ ਜਨਸੰਖਿਆਕ ਪਿਛੋਕੜਾਂ ਤੋਂ ਲਗਭਗ 110,000 ਬੋਲਣ ਵਾਲਿਆਂ ਦੇ ਯੋਗਦਾਨ
- 21,500 ਕੁੱਲ ਘੰਟਿਆਂ ਦੀ ਆਡੀਓ, ਜਿਸ ਵਿੱਚ 835 ਘੰਟਿਆਂ ਦਾ ਟ੍ਰਾਂਸਕ੍ਰਾਈਬ ਕੀਤਾ ਹੋਇਆ ਭਾਸ਼ਣ ਸ਼ਾਮਲ ਹੈ
- 22 ਭਾਰਤੀ ਰਾਜਾਂ ਦੇ 120 ਜ਼ਿਲ੍ਹਿਆਂ ਵਿੱਚ ਫੈਲੀਆਂ ਫੀਲਡ ਰਿਕਾਰਡਿੰਗਾਂ
- CC BY 4.0 ਲਾਇਸੈਂਸ ਹੇਠ ਜਾਰੀ ਕੀਤਾ ਗਿਆ, ਜੋ ਐਟ੍ਰਿਬਿਊਸ਼ਨ ਦੇ ਨਾਲ ਵਿਆਪਕ ਦੁਬਾਰਾ ਵਰਤੋਂ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ
- ਦੋਵੇਂ—ਯੂਨੀਮੋਡਲ ਅਤੇ ਮਲਟੀਮੋਡਲ—ਖੋਜ ਐਪਲੀਕੇਸ਼ਨਾਂ ਲਈ ਸਹਾਇਤਾ
ਸਹਾਇਤਾਪ੍ਰਾਪਤ ਕਾਰਜ ਅਤੇ ਵਰਤੋਂ ਦੇ ਕੇਸ
VAANI ਨੂੰ ਭਾਸ਼ਣ ਅਤੇ ਭਾਸ਼ਾ ਪ੍ਰਕਿਰਿਆਕਰਨ ਨਾਲ ਸੰਬੰਧਿਤ ਕਈ ਕਿਸਮਾਂ ਦੇ ਕਾਰਜਾਂ ਲਈ ਇੱਕ ਸਰੋਤ ਵਜੋਂ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ। ਖੋਜਕਾਰ ਅਤੇ ਡਿਵੈਲਪਰ ਇਸਨੂੰ ਆਟੋਮੈਟਿਕ ਸਪੀਚ ਰਿਕਗਨੀਸ਼ਨ (ASR) ਸਿਸਟਮਾਂ, ਟੈਕਸਟ-ਟੂ-ਸਪੀਚ (TTS) ਸਿੰਥੇਸਿਸ, ਸਪੀਕਰ ਪਛਾਣ, ਅਤੇ ਭਾਸ਼ਾ ਪਛਾਣ ਮਾਡਲਾਂ ਨੂੰ ਟ੍ਰੇਨ ਅਤੇ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਵਰਤ ਸਕਦੇ ਹਨ। ਇਹ ਡਾਟਾਸੈੱਟ ਭਾਸ਼ਣ ਐਨਹਾਂਸਮੈਂਟ ‘ਤੇ ਕੰਮ ਅਤੇ ਮਲਟੀਮੋਡਲ ਵੱਡੇ ਭਾਸ਼ਾਈ ਮਾਡਲਾਂ (LLMs) ਦੇ ਵਿਕਾਸ ਨੂੰ ਵੀ ਸਮਰਥਨ ਦਿੰਦਾ ਹੈ। ਭਾਸ਼ਾਵਾਂ ਦੇ ਕਵਰੇਜ ਦੀ ਚੌੜਾਈ ਇਸਨੂੰ ਖਾਸ ਤੌਰ ‘ਤੇ ਉਹਨਾਂ ਸਿਸਟਮਾਂ ਲਈ ਮਹੱਤਵਪੂਰਨ ਬਣਾਉਂਦੀ ਹੈ ਜਿਨ੍ਹਾਂ ਨੂੰ ਭਾਰਤ ਦੇ ਵਿਭਿੰਨ ਭਾਸ਼ਾਈ ਮਾਹੌਲ ਵਿੱਚ ਕੰਮ ਕਰਨ ਲਈ ਬੈਂਚਮਾਰਕ ਕੀਤਾ ਜਾਣਾ ਹੈ।
ਕਿਉਂਕਿ ਇਸ ਵਿੱਚ ਕਈ ਘੱਟ-ਸਰੋਤ ਭਾਸ਼ਾਵਾਂ ਅਤੇ ਬੋਲੀਆਂ ਸ਼ਾਮਲ ਹਨ ਜਿਨ੍ਹਾਂ ਲਈ ਪਹਿਲਾਂ ਬਹੁਤ ਘੱਟ ਜਾਂ ਬਿਲਕੁਲ ਵੀ ਭਾਸ਼ਣ ਡਾਟਾ ਮੌਜੂਦ ਨਹੀਂ ਹੈ, VAANI ਉਹਨਾਂ ਖੋਜਕਾਰਾਂ ਲਈ ਖਾਸ ਮਹੱਤਵ ਰੱਖਦਾ ਹੈ ਜੋ ਸ਼ਾਮਿਲ ਕਰਨ ਵਾਲੀਆਂ ਭਾਸ਼ਾਈ ਤਕਨਾਲੋਜੀਆਂ ਬਣਾਉਣ ‘ਤੇ ਧਿਆਨ ਕੇਂਦ੍ਰਿਤ ਕਰਦੇ ਹਨ। ਇਹ ASR ਅਤੇ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਪ੍ਰਕਿਰਿਆਕਰਨ ਦੇ ਉਹਨਾਂ ਸੰਦਾਂ ਨੂੰ ਵਿਕਸਿਤ ਕਰਨ ਲਈ ਆਧਾਰ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ ਜੋ ਉਹਨਾਂ ਭਾਈਚਾਰਿਆਂ ਦੀ ਸੇਵਾ ਕਰ ਸਕਣ, ਜਿਨ੍ਹਾਂ ਦੀਆਂ ਭਾਸ਼ਾਵਾਂ ਇਤਿਹਾਸਕ ਤੌਰ ‘ਤੇ ਮੁੱਖਧਾਰਾ AI ਵਿਕਾਸ ਵਿੱਚ ਕਦੇ ਵੀ ਸ਼ਾਮਲ ਨਹੀਂ ਰਹੀਆਂ।
ਭਾਰਤੀ ਭਾਸ਼ਾਈ ਤਕਨਾਲੋਜੀ ਲਈ ਮਹੱਤਤਾ
VAANI ਦਾ ਪੈਮਾਨਾ ਅਤੇ ਭਾਸ਼ਾਈ ਵਿਭਿੰਨਤਾ ਇਸਨੂੰ ਬਹੁਭਾਸ਼ਾਈ ਭਾਸ਼ਣ ਖੋਜ ਦੇ ਖੇਤਰ ਵਿੱਚ, ਖਾਸ ਕਰਕੇ ਦੱਖਣੀ ਏਸ਼ੀਆਈ ਭਾਸ਼ਾਵਾਂ ਦੇ ਸੰਦਰਭ ਵਿੱਚ, ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਯੋਗਦਾਨ ਬਣਾਉਂਦੀ ਹੈ। ਕਬਾਇਲੀ, ਪੇਂਡੂ ਅਤੇ ਖੇਤਰੀ ਭਾਈਚਾਰਿਆਂ ਵੱਲੋਂ ਬੋਲੀ ਜਾਣ ਵਾਲੀਆਂ ਕਿਸਮਾਂ ਨੂੰ ਵੱਧ ਪ੍ਰਚਲਿਤ ਭਾਸ਼ਾਵਾਂ ਦੇ ਨਾਲ ਦਸਤਾਵੇਜ਼ਬੱਧ ਕਰਕੇ, ਇਹ ਡਾਟਾਸੈੱਟ ਭਾਰਤ ਦੀ ਭਾਸ਼ਾਈ ਵਿਰਾਸਤ ਦੇ ਉਸ ਪੱਖ ਨੂੰ ਕੈਪਚਰ ਕਰਦਾ ਹੈ ਜੋ ਗਣਨਾਤਮਕ ਸਰੋਤਾਂ ਵਿੱਚ ਬਹੁਤ ਘੱਟ ਦਰਸਾਇਆ ਜਾਂਦਾ ਹੈ। ਇਸਦਾ ਖੁੱਲ੍ਹਾ ਲਾਇਸੈਂਸ ਉਹਨਾਂ ਅਕਾਦਮਿਕ ਸੰਸਥਾਵਾਂ, ਸਰਕਾਰੀ ਏਜੰਸੀਆਂ ਅਤੇ ਉਦਯੋਗਿਕ ਖੋਜਕਾਰਾਂ ਲਈ ਵਰਤੋਂ ਨੂੰ ਆਸਾਨ ਬਣਾਉਂਦਾ ਹੈ ਜੋ ਹੋਰ ਸ਼ਾਮਿਲ ਕਰਨ ਵਾਲੀਆਂ ਅਤੇ ਪ੍ਰਤੀਨਿਧੀ ਭਾਸ਼ਣ ਤਕਨਾਲੋਜੀਆਂ ਵੱਲ ਕੰਮ ਕਰ ਰਹੇ ਹਨ।