ਪਿਛੋਕੜ ਅਤੇ ਵਿਕਾਸ

VAANI (ਜਿਸਦਾ ਅਰਥ ਕਈ ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ ਵਿੱਚ “ਆਵਾਜ਼” ਜਾਂ “ਬੋਲਚਾਲ” ਹੈ) ਨੂੰ ਬੈਂਗਲੁਰੂ ਵਿੱਚ ਭਾਰਤੀ ਵਿਗਿਆਨ ਸੰਸਥਾਨ (IISc) ਵੱਲੋਂ ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ ਲਈ ਭਾਸ਼ਣ ਡਾਟਾ ਸਰੋਤਾਂ ਵਿੱਚ ਮੌਜੂਦ ਮਹੱਤਵਪੂਰਨ ਘਾਟ ਨੂੰ ਦੂਰ ਕਰਨ ਦੇ ਯਤਨ ਦੇ ਹਿੱਸੇ ਵਜੋਂ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਸੀ। ਭਾਰਤ ਦਾ ਭਾਸ਼ਾਈ ਪਰਿਦ੍ਰਿਸ਼ ਦੁਨੀਆ ਦੇ ਸਭ ਤੋਂ ਵੱਧ ਵਿਭਿੰਨ ਪਰਿਦ੍ਰਿਸ਼ਾਂ ਵਿੱਚੋਂ ਇੱਕ ਹੈ, ਜਿਸ ਵਿੱਚ ਸੈਂਕੜੇ ਭਾਸ਼ਾਵਾਂ ਅਤੇ ਹਜ਼ਾਰਾਂ ਬੋਲੀਆਂ ਸ਼ਾਮਲ ਹਨ, ਫਿਰ ਵੀ ਮੌਜੂਦਾ ਬਹੁਤੇ ਭਾਸ਼ਣ ਡਾਟਾਸੈੱਟ ਜ਼ਿਆਦਾਤਰ ਕੁਝ ਹੀ ਚੰਗੇ ਤਰੀਕੇ ਨਾਲ ਸਰੋਤਾਂ ਵਾਲੀਆਂ ਭਾਸ਼ਾਵਾਂ ‘ਤੇ ਕੇਂਦ੍ਰਿਤ ਹਨ। VAANI ਨੂੰ ਇਸ ਘੱਟ ਸੇਵਾ ਪ੍ਰਾਪਤ ਭਾਸ਼ਾਈ ਖੇਤਰ ਲਈ ਟ੍ਰੇਨਿੰਗ ਡਾਟਾ ਦੀ ਉਪਲਬਧਤਾ ਵਧਾਉਣ ਲਈ ਵਿਕਸਿਤ ਕੀਤਾ ਗਿਆ, ਜਿਸ ਵਿੱਚ ਦੇਸ਼ ਦੇ ਭੂਗੋਲਿਕ ਅਤੇ ਭਾਸ਼ਾਈ ਤੌਰ ‘ਤੇ ਵਿਭਿੰਨ ਖੇਤਰਾਂ ਵਿੱਚ ਵੱਡੇ ਪੱਧਰ ਦੀ ਫੀਲਡ ਡਾਟਾ ਇਕੱਠਾ ਕਰਨ ਦੀ ਪ੍ਰਕਿਰਿਆ ਕੀਤੀ ਗਈ।

ਡਾਟਾ ਲਗਭਗ 110,000 ਬੋਲਣ ਵਾਲਿਆਂ ਤੋਂ ਇਕੱਠਾ ਕੀਤਾ ਗਿਆ, ਜੋ 22 ਭਾਰਤੀ ਰਾਜਾਂ ਦੇ 120 ਜ਼ਿਲ੍ਹਿਆਂ ਵਿੱਚ ਫੈਲੇ ਹੋਏ ਸਨ। ਇਹ ਇੱਕ ਜਾਣਬੂਝ ਕੇ ਕੀਤਾ ਗਿਆ ਯਤਨ ਸੀ ਕਿ ਨਿਯੰਤਰਿਤ ਸਟੂਡੀਓ ਰਿਕਾਰਡਿੰਗਾਂ ‘ਤੇ ਨਿਰਭਰ ਹੋਣ ਦੀ ਬਜਾਏ ਅਸਲ ਖੇਤਰੀ ਅਤੇ ਬੋਲੀ ਸੰਬੰਧੀ ਭਿੰਨਤਾਵਾਂ ਨੂੰ ਕੈਪਚਰ ਕੀਤਾ ਜਾਵੇ। ਇਹ ਡਾਟਾਸੈੱਟ 86 ਭਾਸ਼ਾਵਾਂ ਅਤੇ ਬੋਲੀਆਂ ਨੂੰ ਕਵਰ ਕਰਦਾ ਹੈ—ਹਿੰਦੀ, ਤਾਮਿਲ, ਤੇਲਗੂ, ਬੰਗਾਲੀ, ਕੰਨੜ ਅਤੇ ਮਲਿਆਲਮ ਵਰਗੀਆਂ ਮੁੱਖ ਨਿਰਧਾਰਤ ਭਾਸ਼ਾਵਾਂ ਤੋਂ ਲੈ ਕੇ ਗੋਂਡੀ, ਸੰਤਾਲੀ, ਕੁੁਰੂਖ, ਵਾਂਚੋ ਅਤੇ ਟੇਨਿਯਿਡੀ ਵਰਗੀਆਂ ਕਈ ਖੇਤਰੀ ਕਿਸਮਾਂ ਅਤੇ ਕਬਾਇਲੀ ਭਾਸ਼ਾਵਾਂ ਤੱਕ, ਅਤੇ ਹੋਰ ਵੀ ਬਹੁਤ ਕੁਝ।

ਡਾਟਾਸੈੱਟ ਦੀ ਬਣਤਰ ਅਤੇ ਮੁੱਖ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ

VAANI ਕੁੱਲ ਮਿਲਾ ਕੇ ਲਗਭਗ 21,500 ਘੰਟਿਆਂ ਦੀ ਆਡੀਓ ਸ਼ਾਮਲ ਕਰਦਾ ਹੈ, ਜਿਸ ਕਰਕੇ ਇਹ ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ ‘ਤੇ ਕੇਂਦ੍ਰਿਤ ਸਭ ਤੋਂ ਵੱਡੇ ਬਹੁਭਾਸ਼ਾਈ ਭਾਸ਼ਣ ਕੋਰਪਸਾਂ ਵਿੱਚੋਂ ਇੱਕ ਹੈ। ਇਸ ਵਿੱਚੋਂ 835 ਘੰਟਿਆਂ ਨੂੰ ਟ੍ਰਾਂਸਕ੍ਰਾਈਬ ਕੀਤਾ ਗਿਆ ਹੈ, ਜੋ ਕੁੱਲ ਸੰਗ੍ਰਹਿ ਦੇ ਇੱਕ ਹਿੱਸੇ ਲਈ ਸੱਚਾਈ-ਅਧਾਰਿਤ ਟੈਕਸਟ ਐਨੋਟੇਸ਼ਨ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ। ਡਾਟਾਸੈੱਟ ਵਿੱਚ ਮਲਟੀਮੋਡਲ ਤੱਤ ਵੀ ਸ਼ਾਮਲ ਹਨ, ਜਿਸ ਨਾਲ ਇਹ ਰਵਾਇਤੀ ਭਾਸ਼ਣ ਕਾਰਜਾਂ ਤੋਂ ਇਲਾਵਾ ਹੋਰ ਵਰਤੋਂ ਲਈ ਉਪਯੋਗ ਬਣਦਾ ਹੈ।

ਡਾਟਾਸੈੱਟ ਦੀਆਂ ਮੁੱਖ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਇਹ ਹਨ:

86 ਭਾਸ਼ਾਵਾਂ ਅਤੇ ਬੋਲੀਆਂ ਦਾ ਕਵਰੇਜ, ਜਿਸ ਵਿੱਚ ਕਈ ਘੱਟ-ਸਰੋਤ ਅਤੇ ਕਬਾਇਲੀ ਕਿਸਮਾਂ ਸ਼ਾਮਲ ਹਨ
ਵੱਖ-ਵੱਖ ਭੂਗੋਲਿਕ ਅਤੇ ਜਨਸੰਖਿਆਕ ਪਿਛੋਕੜਾਂ ਤੋਂ ਲਗਭਗ 110,000 ਬੋਲਣ ਵਾਲਿਆਂ ਦੇ ਯੋਗਦਾਨ
21,500 ਕੁੱਲ ਘੰਟਿਆਂ ਦੀ ਆਡੀਓ, ਜਿਸ ਵਿੱਚ 835 ਘੰਟਿਆਂ ਦਾ ਟ੍ਰਾਂਸਕ੍ਰਾਈਬ ਕੀਤਾ ਹੋਇਆ ਭਾਸ਼ਣ ਸ਼ਾਮਲ ਹੈ
22 ਭਾਰਤੀ ਰਾਜਾਂ ਦੇ 120 ਜ਼ਿਲ੍ਹਿਆਂ ਵਿੱਚ ਫੈਲੀਆਂ ਫੀਲਡ ਰਿਕਾਰਡਿੰਗਾਂ
CC BY 4.0 ਲਾਇਸੈਂਸ ਹੇਠ ਜਾਰੀ ਕੀਤਾ ਗਿਆ, ਜੋ ਐਟ੍ਰਿਬਿਊਸ਼ਨ ਦੇ ਨਾਲ ਵਿਆਪਕ ਦੁਬਾਰਾ ਵਰਤੋਂ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ
ਦੋਵੇਂ—ਯੂਨੀਮੋਡਲ ਅਤੇ ਮਲਟੀਮੋਡਲ—ਖੋਜ ਐਪਲੀਕੇਸ਼ਨਾਂ ਲਈ ਸਹਾਇਤਾ

ਸਹਾਇਤਾਪ੍ਰਾਪਤ ਕਾਰਜ ਅਤੇ ਵਰਤੋਂ ਦੇ ਕੇਸ

VAANI ਨੂੰ ਭਾਸ਼ਣ ਅਤੇ ਭਾਸ਼ਾ ਪ੍ਰਕਿਰਿਆਕਰਨ ਨਾਲ ਸੰਬੰਧਿਤ ਕਈ ਕਿਸਮਾਂ ਦੇ ਕਾਰਜਾਂ ਲਈ ਇੱਕ ਸਰੋਤ ਵਜੋਂ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ। ਖੋਜਕਾਰ ਅਤੇ ਡਿਵੈਲਪਰ ਇਸਨੂੰ ਆਟੋਮੈਟਿਕ ਸਪੀਚ ਰਿਕਗਨੀਸ਼ਨ (ASR) ਸਿਸਟਮਾਂ, ਟੈਕਸਟ-ਟੂ-ਸਪੀਚ (TTS) ਸਿੰਥੇਸਿਸ, ਸਪੀਕਰ ਪਛਾਣ, ਅਤੇ ਭਾਸ਼ਾ ਪਛਾਣ ਮਾਡਲਾਂ ਨੂੰ ਟ੍ਰੇਨ ਅਤੇ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਵਰਤ ਸਕਦੇ ਹਨ। ਇਹ ਡਾਟਾਸੈੱਟ ਭਾਸ਼ਣ ਐਨਹਾਂਸਮੈਂਟ ‘ਤੇ ਕੰਮ ਅਤੇ ਮਲਟੀਮੋਡਲ ਵੱਡੇ ਭਾਸ਼ਾਈ ਮਾਡਲਾਂ (LLMs) ਦੇ ਵਿਕਾਸ ਨੂੰ ਵੀ ਸਮਰਥਨ ਦਿੰਦਾ ਹੈ। ਭਾਸ਼ਾਵਾਂ ਦੇ ਕਵਰੇਜ ਦੀ ਚੌੜਾਈ ਇਸਨੂੰ ਖਾਸ ਤੌਰ ‘ਤੇ ਉਹਨਾਂ ਸਿਸਟਮਾਂ ਲਈ ਮਹੱਤਵਪੂਰਨ ਬਣਾਉਂਦੀ ਹੈ ਜਿਨ੍ਹਾਂ ਨੂੰ ਭਾਰਤ ਦੇ ਵਿਭਿੰਨ ਭਾਸ਼ਾਈ ਮਾਹੌਲ ਵਿੱਚ ਕੰਮ ਕਰਨ ਲਈ ਬੈਂਚਮਾਰਕ ਕੀਤਾ ਜਾਣਾ ਹੈ।

ਕਿਉਂਕਿ ਇਸ ਵਿੱਚ ਕਈ ਘੱਟ-ਸਰੋਤ ਭਾਸ਼ਾਵਾਂ ਅਤੇ ਬੋਲੀਆਂ ਸ਼ਾਮਲ ਹਨ ਜਿਨ੍ਹਾਂ ਲਈ ਪਹਿਲਾਂ ਬਹੁਤ ਘੱਟ ਜਾਂ ਬਿਲਕੁਲ ਵੀ ਭਾਸ਼ਣ ਡਾਟਾ ਮੌਜੂਦ ਨਹੀਂ ਹੈ, VAANI ਉਹਨਾਂ ਖੋਜਕਾਰਾਂ ਲਈ ਖਾਸ ਮਹੱਤਵ ਰੱਖਦਾ ਹੈ ਜੋ ਸ਼ਾਮਿਲ ਕਰਨ ਵਾਲੀਆਂ ਭਾਸ਼ਾਈ ਤਕਨਾਲੋਜੀਆਂ ਬਣਾਉਣ ‘ਤੇ ਧਿਆਨ ਕੇਂਦ੍ਰਿਤ ਕਰਦੇ ਹਨ। ਇਹ ASR ਅਤੇ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਪ੍ਰਕਿਰਿਆਕਰਨ ਦੇ ਉਹਨਾਂ ਸੰਦਾਂ ਨੂੰ ਵਿਕਸਿਤ ਕਰਨ ਲਈ ਆਧਾਰ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ ਜੋ ਉਹਨਾਂ ਭਾਈਚਾਰਿਆਂ ਦੀ ਸੇਵਾ ਕਰ ਸਕਣ, ਜਿਨ੍ਹਾਂ ਦੀਆਂ ਭਾਸ਼ਾਵਾਂ ਇਤਿਹਾਸਕ ਤੌਰ ‘ਤੇ ਮੁੱਖਧਾਰਾ AI ਵਿਕਾਸ ਵਿੱਚ ਕਦੇ ਵੀ ਸ਼ਾਮਲ ਨਹੀਂ ਰਹੀਆਂ।

ਭਾਰਤੀ ਭਾਸ਼ਾਈ ਤਕਨਾਲੋਜੀ ਲਈ ਮਹੱਤਤਾ

VAANI ਦਾ ਪੈਮਾਨਾ ਅਤੇ ਭਾਸ਼ਾਈ ਵਿਭਿੰਨਤਾ ਇਸਨੂੰ ਬਹੁਭਾਸ਼ਾਈ ਭਾਸ਼ਣ ਖੋਜ ਦੇ ਖੇਤਰ ਵਿੱਚ, ਖਾਸ ਕਰਕੇ ਦੱਖਣੀ ਏਸ਼ੀਆਈ ਭਾਸ਼ਾਵਾਂ ਦੇ ਸੰਦਰਭ ਵਿੱਚ, ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਯੋਗਦਾਨ ਬਣਾਉਂਦੀ ਹੈ। ਕਬਾਇਲੀ, ਪੇਂਡੂ ਅਤੇ ਖੇਤਰੀ ਭਾਈਚਾਰਿਆਂ ਵੱਲੋਂ ਬੋਲੀ ਜਾਣ ਵਾਲੀਆਂ ਕਿਸਮਾਂ ਨੂੰ ਵੱਧ ਪ੍ਰਚਲਿਤ ਭਾਸ਼ਾਵਾਂ ਦੇ ਨਾਲ ਦਸਤਾਵੇਜ਼ਬੱਧ ਕਰਕੇ, ਇਹ ਡਾਟਾਸੈੱਟ ਭਾਰਤ ਦੀ ਭਾਸ਼ਾਈ ਵਿਰਾਸਤ ਦੇ ਉਸ ਪੱਖ ਨੂੰ ਕੈਪਚਰ ਕਰਦਾ ਹੈ ਜੋ ਗਣਨਾਤਮਕ ਸਰੋਤਾਂ ਵਿੱਚ ਬਹੁਤ ਘੱਟ ਦਰਸਾਇਆ ਜਾਂਦਾ ਹੈ। ਇਸਦਾ ਖੁੱਲ੍ਹਾ ਲਾਇਸੈਂਸ ਉਹਨਾਂ ਅਕਾਦਮਿਕ ਸੰਸਥਾਵਾਂ, ਸਰਕਾਰੀ ਏਜੰਸੀਆਂ ਅਤੇ ਉਦਯੋਗਿਕ ਖੋਜਕਾਰਾਂ ਲਈ ਵਰਤੋਂ ਨੂੰ ਆਸਾਨ ਬਣਾਉਂਦਾ ਹੈ ਜੋ ਹੋਰ ਸ਼ਾਮਿਲ ਕਰਨ ਵਾਲੀਆਂ ਅਤੇ ਪ੍ਰਤੀਨਿਧੀ ਭਾਸ਼ਣ ਤਕਨਾਲੋਜੀਆਂ ਵੱਲ ਕੰਮ ਕਰ ਰਹੇ ਹਨ।

VAANI

ਸ਼੍ਰੇਣੀਆਂ

ਥੀਮਾਂ

ਪਿਛੋਕੜ ਅਤੇ ਵਿਕਾਸ

ਡਾਟਾਸੈੱਟ ਦੀ ਬਣਤਰ ਅਤੇ ਮੁੱਖ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ

ਸਹਾਇਤਾਪ੍ਰਾਪਤ ਕਾਰਜ ਅਤੇ ਵਰਤੋਂ ਦੇ ਕੇਸ

ਭਾਰਤੀ ਭਾਸ਼ਾਈ ਤਕਨਾਲੋਜੀ ਲਈ ਮਹੱਤਤਾ