ਵੱਲੋਂ ਬਣਾਇਆ ਗਿਆ Indian Institute of Science

21,500 hours CC-BY 4.0 Training ਸਾਰੀਆਂ ਭਾਸ਼ਾਵਾਂ

ਥੀਮਾਂ

voice audionlp

VAANI ਇੱਕ ਵੱਡੇ ਪੱਧਰ ਦਾ ਬਹੁਭਾਸ਼ਾਈ ਬੋਲੀ ਡਾਟਾਸੈੱਟ ਹੈ, ਜੋ ਬੈਂਗਲੁਰੂ ਦੇ ਇੰਡੀਅਨ ਇੰਸਟੀਚਿਊਟ ਆਫ ਸਾਇੰਸ (IISc) ਵੱਲੋਂ ਵਿਕਸਿਤ ਕੀਤਾ ਗਿਆ ਹੈ। ਇਸ ਵਿੱਚ ਲਗਭਗ 21,500 ਘੰਟਿਆਂ ਦੀ ਆਡੀਓ ਸ਼ਾਮਲ ਹੈ, ਜੋ ਲਗਭਗ 110,000 ਬੋਲਣ ਵਾਲਿਆਂ ਤੋਂ 22 ਭਾਰਤੀ ਰਾਜਾਂ ਦੇ 120 ਜ਼ਿਲ੍ਹਿਆਂ ਵਿੱਚ ਇਕੱਠੀ ਕੀਤੀ ਗਈ ਹੈ। ਇਹ ਭਾਰਤ ਭਰ ਵਿੱਚ ਬੋਲੀ ਜਾਣ ਵਾਲੀਆਂ 86 ਭਾਸ਼ਾਵਾਂ ਅਤੇ ਬੋਲੀਆਂ ਨੂੰ ਕਵਰ ਕਰਦਾ ਹੈ—ਜਿਸ ਵਿੱਚ ਮੁੱਖ ਤਹਿ-ਸ਼ੁਡਿਊਲ ਭਾਸ਼ਾਵਾਂ ਦੇ ਨਾਲ ਨਾਲ ਕਈ ਖੇਤਰੀ ਅਤੇ ਕਬਾਇਲੀ ਰੂਪ ਵੀ ਸ਼ਾਮਲ ਹਨ—ਅਤੇ ਇਸ ਵਿੱਚ 835 ਘੰਟਿਆਂ ਦੀ ਟ੍ਰਾਂਸਕ੍ਰਾਈਬ ਕੀਤੀ ਬੋਲੀ ਵੀ ਹੈ।

ਇਹ ਡਾਟਾਸੈੱਟ ਕਈ ਤਰ੍ਹਾਂ ਦੇ ਬੋਲੀ ਅਤੇ ਭਾਸ਼ਾ ਸੰਬੰਧੀ ਕੰਮਾਂ ਨੂੰ ਸਮਰਥਨ ਦੇਣ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ, ਜਿਵੇਂ ਕਿ ਆਟੋਮੈਟਿਕ ਸਪੀਚ ਰਿਕਗਨੀਸ਼ਨ, ਟੈਕਸਟ-ਟੂ-ਸਪੀਚ ਸਿੰਥੇਸਿਸ, ਬੋਲਣ ਵਾਲੇ ਦੀ ਪਛਾਣ, ਭਾਸ਼ਾ ਦੀ ਪਛਾਣ, ਬੋਲੀ ਵਿੱਚ ਸੁਧਾਰ (speech enhancement), ਅਤੇ ਮਲਟੀਮੋਡਲ ਭਾਸ਼ਾਈ ਮਾਡਲਾਂ ਦਾ ਵਿਕਾਸ। CC BY 4.0 ਲਾਇਸੈਂਸ ਹੇਠ ਜਾਰੀ ਕੀਤਾ ਗਿਆ, ਇਹ ਮੁੱਖ ਤੌਰ ’ਤੇ AI ਸਿਸਟਮਾਂ ਦੀ ਟ੍ਰੇਨਿੰਗ ਅਤੇ ਬੈਂਚਮਾਰਕਿੰਗ ਲਈ ਬਣਾਇਆ ਗਿਆ ਹੈ, ਖਾਸ ਕਰਕੇ ਉਹ ਖੋਜਕਾਰਾਂ ਅਤੇ ਡਿਵੈਲਪਰਾਂ ਲਈ ਜੋ ਘੱਟ-ਸਰੋਤ ਅਤੇ ਘੱਟ ਪ੍ਰਤਿਨਿਧਿਤ ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ ’ਤੇ ਕੰਮ ਕਰ ਰਹੇ ਹਨ।

ਪਿਛੋਕੜ ਅਤੇ ਵਿਕਾਸ

VAANI (ਜਿਸਦਾ ਅਰਥ ਕਈ ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ ਵਿੱਚ “ਆਵਾਜ਼” ਜਾਂ “ਬੋਲਚਾਲ” ਹੈ) ਨੂੰ ਬੈਂਗਲੁਰੂ ਵਿੱਚ ਭਾਰਤੀ ਵਿਗਿਆਨ ਸੰਸਥਾਨ (IISc) ਵੱਲੋਂ ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ ਲਈ ਭਾਸ਼ਣ ਡਾਟਾ ਸਰੋਤਾਂ ਵਿੱਚ ਮੌਜੂਦ ਮਹੱਤਵਪੂਰਨ ਘਾਟ ਨੂੰ ਦੂਰ ਕਰਨ ਦੇ ਯਤਨ ਦੇ ਹਿੱਸੇ ਵਜੋਂ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਸੀ। ਭਾਰਤ ਦਾ ਭਾਸ਼ਾਈ ਪਰਿਦ੍ਰਿਸ਼ ਦੁਨੀਆ ਦੇ ਸਭ ਤੋਂ ਵੱਧ ਵਿਭਿੰਨ ਪਰਿਦ੍ਰਿਸ਼ਾਂ ਵਿੱਚੋਂ ਇੱਕ ਹੈ, ਜਿਸ ਵਿੱਚ ਸੈਂਕੜੇ ਭਾਸ਼ਾਵਾਂ ਅਤੇ ਹਜ਼ਾਰਾਂ ਬੋਲੀਆਂ ਸ਼ਾਮਲ ਹਨ, ਫਿਰ ਵੀ ਮੌਜੂਦਾ ਬਹੁਤੇ ਭਾਸ਼ਣ ਡਾਟਾਸੈੱਟ ਜ਼ਿਆਦਾਤਰ ਕੁਝ ਹੀ ਚੰਗੇ ਤਰੀਕੇ ਨਾਲ ਸਰੋਤਾਂ ਵਾਲੀਆਂ ਭਾਸ਼ਾਵਾਂ ‘ਤੇ ਕੇਂਦ੍ਰਿਤ ਹਨ। VAANI ਨੂੰ ਇਸ ਘੱਟ ਸੇਵਾ ਪ੍ਰਾਪਤ ਭਾਸ਼ਾਈ ਖੇਤਰ ਲਈ ਟ੍ਰੇਨਿੰਗ ਡਾਟਾ ਦੀ ਉਪਲਬਧਤਾ ਵਧਾਉਣ ਲਈ ਵਿਕਸਿਤ ਕੀਤਾ ਗਿਆ, ਜਿਸ ਵਿੱਚ ਦੇਸ਼ ਦੇ ਭੂਗੋਲਿਕ ਅਤੇ ਭਾਸ਼ਾਈ ਤੌਰ ‘ਤੇ ਵਿਭਿੰਨ ਖੇਤਰਾਂ ਵਿੱਚ ਵੱਡੇ ਪੱਧਰ ਦੀ ਫੀਲਡ ਡਾਟਾ ਇਕੱਠਾ ਕਰਨ ਦੀ ਪ੍ਰਕਿਰਿਆ ਕੀਤੀ ਗਈ।

ਡਾਟਾ ਲਗਭਗ 110,000 ਬੋਲਣ ਵਾਲਿਆਂ ਤੋਂ ਇਕੱਠਾ ਕੀਤਾ ਗਿਆ, ਜੋ 22 ਭਾਰਤੀ ਰਾਜਾਂ ਦੇ 120 ਜ਼ਿਲ੍ਹਿਆਂ ਵਿੱਚ ਫੈਲੇ ਹੋਏ ਸਨ। ਇਹ ਇੱਕ ਜਾਣਬੂਝ ਕੇ ਕੀਤਾ ਗਿਆ ਯਤਨ ਸੀ ਕਿ ਨਿਯੰਤਰਿਤ ਸਟੂਡੀਓ ਰਿਕਾਰਡਿੰਗਾਂ ‘ਤੇ ਨਿਰਭਰ ਹੋਣ ਦੀ ਬਜਾਏ ਅਸਲ ਖੇਤਰੀ ਅਤੇ ਬੋਲੀ ਸੰਬੰਧੀ ਭਿੰਨਤਾਵਾਂ ਨੂੰ ਕੈਪਚਰ ਕੀਤਾ ਜਾਵੇ। ਇਹ ਡਾਟਾਸੈੱਟ 86 ਭਾਸ਼ਾਵਾਂ ਅਤੇ ਬੋਲੀਆਂ ਨੂੰ ਕਵਰ ਕਰਦਾ ਹੈ—ਹਿੰਦੀ, ਤਾਮਿਲ, ਤੇਲਗੂ, ਬੰਗਾਲੀ, ਕੰਨੜ ਅਤੇ ਮਲਿਆਲਮ ਵਰਗੀਆਂ ਮੁੱਖ ਨਿਰਧਾਰਤ ਭਾਸ਼ਾਵਾਂ ਤੋਂ ਲੈ ਕੇ ਗੋਂਡੀ, ਸੰਤਾਲੀ, ਕੁੁਰੂਖ, ਵਾਂਚੋ ਅਤੇ ਟੇਨਿਯਿਡੀ ਵਰਗੀਆਂ ਕਈ ਖੇਤਰੀ ਕਿਸਮਾਂ ਅਤੇ ਕਬਾਇਲੀ ਭਾਸ਼ਾਵਾਂ ਤੱਕ, ਅਤੇ ਹੋਰ ਵੀ ਬਹੁਤ ਕੁਝ।

ਡਾਟਾਸੈੱਟ ਦੀ ਬਣਤਰ ਅਤੇ ਮੁੱਖ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ

VAANI ਕੁੱਲ ਮਿਲਾ ਕੇ ਲਗਭਗ 21,500 ਘੰਟਿਆਂ ਦੀ ਆਡੀਓ ਸ਼ਾਮਲ ਕਰਦਾ ਹੈ, ਜਿਸ ਕਰਕੇ ਇਹ ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ ‘ਤੇ ਕੇਂਦ੍ਰਿਤ ਸਭ ਤੋਂ ਵੱਡੇ ਬਹੁਭਾਸ਼ਾਈ ਭਾਸ਼ਣ ਕੋਰਪਸਾਂ ਵਿੱਚੋਂ ਇੱਕ ਹੈ। ਇਸ ਵਿੱਚੋਂ 835 ਘੰਟਿਆਂ ਨੂੰ ਟ੍ਰਾਂਸਕ੍ਰਾਈਬ ਕੀਤਾ ਗਿਆ ਹੈ, ਜੋ ਕੁੱਲ ਸੰਗ੍ਰਹਿ ਦੇ ਇੱਕ ਹਿੱਸੇ ਲਈ ਸੱਚਾਈ-ਅਧਾਰਿਤ ਟੈਕਸਟ ਐਨੋਟੇਸ਼ਨ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ। ਡਾਟਾਸੈੱਟ ਵਿੱਚ ਮਲਟੀਮੋਡਲ ਤੱਤ ਵੀ ਸ਼ਾਮਲ ਹਨ, ਜਿਸ ਨਾਲ ਇਹ ਰਵਾਇਤੀ ਭਾਸ਼ਣ ਕਾਰਜਾਂ ਤੋਂ ਇਲਾਵਾ ਹੋਰ ਵਰਤੋਂ ਲਈ ਉਪਯੋਗ ਬਣਦਾ ਹੈ।

ਡਾਟਾਸੈੱਟ ਦੀਆਂ ਮੁੱਖ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਇਹ ਹਨ:

  • 86 ਭਾਸ਼ਾਵਾਂ ਅਤੇ ਬੋਲੀਆਂ ਦਾ ਕਵਰੇਜ, ਜਿਸ ਵਿੱਚ ਕਈ ਘੱਟ-ਸਰੋਤ ਅਤੇ ਕਬਾਇਲੀ ਕਿਸਮਾਂ ਸ਼ਾਮਲ ਹਨ
  • ਵੱਖ-ਵੱਖ ਭੂਗੋਲਿਕ ਅਤੇ ਜਨਸੰਖਿਆਕ ਪਿਛੋਕੜਾਂ ਤੋਂ ਲਗਭਗ 110,000 ਬੋਲਣ ਵਾਲਿਆਂ ਦੇ ਯੋਗਦਾਨ
  • 21,500 ਕੁੱਲ ਘੰਟਿਆਂ ਦੀ ਆਡੀਓ, ਜਿਸ ਵਿੱਚ 835 ਘੰਟਿਆਂ ਦਾ ਟ੍ਰਾਂਸਕ੍ਰਾਈਬ ਕੀਤਾ ਹੋਇਆ ਭਾਸ਼ਣ ਸ਼ਾਮਲ ਹੈ
  • 22 ਭਾਰਤੀ ਰਾਜਾਂ ਦੇ 120 ਜ਼ਿਲ੍ਹਿਆਂ ਵਿੱਚ ਫੈਲੀਆਂ ਫੀਲਡ ਰਿਕਾਰਡਿੰਗਾਂ
  • CC BY 4.0 ਲਾਇਸੈਂਸ ਹੇਠ ਜਾਰੀ ਕੀਤਾ ਗਿਆ, ਜੋ ਐਟ੍ਰਿਬਿਊਸ਼ਨ ਦੇ ਨਾਲ ਵਿਆਪਕ ਦੁਬਾਰਾ ਵਰਤੋਂ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ
  • ਦੋਵੇਂ—ਯੂਨੀਮੋਡਲ ਅਤੇ ਮਲਟੀਮੋਡਲ—ਖੋਜ ਐਪਲੀਕੇਸ਼ਨਾਂ ਲਈ ਸਹਾਇਤਾ

ਸਹਾਇਤਾਪ੍ਰਾਪਤ ਕਾਰਜ ਅਤੇ ਵਰਤੋਂ ਦੇ ਕੇਸ

VAANI ਨੂੰ ਭਾਸ਼ਣ ਅਤੇ ਭਾਸ਼ਾ ਪ੍ਰਕਿਰਿਆਕਰਨ ਨਾਲ ਸੰਬੰਧਿਤ ਕਈ ਕਿਸਮਾਂ ਦੇ ਕਾਰਜਾਂ ਲਈ ਇੱਕ ਸਰੋਤ ਵਜੋਂ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ। ਖੋਜਕਾਰ ਅਤੇ ਡਿਵੈਲਪਰ ਇਸਨੂੰ ਆਟੋਮੈਟਿਕ ਸਪੀਚ ਰਿਕਗਨੀਸ਼ਨ (ASR) ਸਿਸਟਮਾਂ, ਟੈਕਸਟ-ਟੂ-ਸਪੀਚ (TTS) ਸਿੰਥੇਸਿਸ, ਸਪੀਕਰ ਪਛਾਣ, ਅਤੇ ਭਾਸ਼ਾ ਪਛਾਣ ਮਾਡਲਾਂ ਨੂੰ ਟ੍ਰੇਨ ਅਤੇ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਵਰਤ ਸਕਦੇ ਹਨ। ਇਹ ਡਾਟਾਸੈੱਟ ਭਾਸ਼ਣ ਐਨਹਾਂਸਮੈਂਟ ‘ਤੇ ਕੰਮ ਅਤੇ ਮਲਟੀਮੋਡਲ ਵੱਡੇ ਭਾਸ਼ਾਈ ਮਾਡਲਾਂ (LLMs) ਦੇ ਵਿਕਾਸ ਨੂੰ ਵੀ ਸਮਰਥਨ ਦਿੰਦਾ ਹੈ। ਭਾਸ਼ਾਵਾਂ ਦੇ ਕਵਰੇਜ ਦੀ ਚੌੜਾਈ ਇਸਨੂੰ ਖਾਸ ਤੌਰ ‘ਤੇ ਉਹਨਾਂ ਸਿਸਟਮਾਂ ਲਈ ਮਹੱਤਵਪੂਰਨ ਬਣਾਉਂਦੀ ਹੈ ਜਿਨ੍ਹਾਂ ਨੂੰ ਭਾਰਤ ਦੇ ਵਿਭਿੰਨ ਭਾਸ਼ਾਈ ਮਾਹੌਲ ਵਿੱਚ ਕੰਮ ਕਰਨ ਲਈ ਬੈਂਚਮਾਰਕ ਕੀਤਾ ਜਾਣਾ ਹੈ।

ਕਿਉਂਕਿ ਇਸ ਵਿੱਚ ਕਈ ਘੱਟ-ਸਰੋਤ ਭਾਸ਼ਾਵਾਂ ਅਤੇ ਬੋਲੀਆਂ ਸ਼ਾਮਲ ਹਨ ਜਿਨ੍ਹਾਂ ਲਈ ਪਹਿਲਾਂ ਬਹੁਤ ਘੱਟ ਜਾਂ ਬਿਲਕੁਲ ਵੀ ਭਾਸ਼ਣ ਡਾਟਾ ਮੌਜੂਦ ਨਹੀਂ ਹੈ, VAANI ਉਹਨਾਂ ਖੋਜਕਾਰਾਂ ਲਈ ਖਾਸ ਮਹੱਤਵ ਰੱਖਦਾ ਹੈ ਜੋ ਸ਼ਾਮਿਲ ਕਰਨ ਵਾਲੀਆਂ ਭਾਸ਼ਾਈ ਤਕਨਾਲੋਜੀਆਂ ਬਣਾਉਣ ‘ਤੇ ਧਿਆਨ ਕੇਂਦ੍ਰਿਤ ਕਰਦੇ ਹਨ। ਇਹ ASR ਅਤੇ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਪ੍ਰਕਿਰਿਆਕਰਨ ਦੇ ਉਹਨਾਂ ਸੰਦਾਂ ਨੂੰ ਵਿਕਸਿਤ ਕਰਨ ਲਈ ਆਧਾਰ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ ਜੋ ਉਹਨਾਂ ਭਾਈਚਾਰਿਆਂ ਦੀ ਸੇਵਾ ਕਰ ਸਕਣ, ਜਿਨ੍ਹਾਂ ਦੀਆਂ ਭਾਸ਼ਾਵਾਂ ਇਤਿਹਾਸਕ ਤੌਰ ‘ਤੇ ਮੁੱਖਧਾਰਾ AI ਵਿਕਾਸ ਵਿੱਚ ਕਦੇ ਵੀ ਸ਼ਾਮਲ ਨਹੀਂ ਰਹੀਆਂ।

ਭਾਰਤੀ ਭਾਸ਼ਾਈ ਤਕਨਾਲੋਜੀ ਲਈ ਮਹੱਤਤਾ

VAANI ਦਾ ਪੈਮਾਨਾ ਅਤੇ ਭਾਸ਼ਾਈ ਵਿਭਿੰਨਤਾ ਇਸਨੂੰ ਬਹੁਭਾਸ਼ਾਈ ਭਾਸ਼ਣ ਖੋਜ ਦੇ ਖੇਤਰ ਵਿੱਚ, ਖਾਸ ਕਰਕੇ ਦੱਖਣੀ ਏਸ਼ੀਆਈ ਭਾਸ਼ਾਵਾਂ ਦੇ ਸੰਦਰਭ ਵਿੱਚ, ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਯੋਗਦਾਨ ਬਣਾਉਂਦੀ ਹੈ। ਕਬਾਇਲੀ, ਪੇਂਡੂ ਅਤੇ ਖੇਤਰੀ ਭਾਈਚਾਰਿਆਂ ਵੱਲੋਂ ਬੋਲੀ ਜਾਣ ਵਾਲੀਆਂ ਕਿਸਮਾਂ ਨੂੰ ਵੱਧ ਪ੍ਰਚਲਿਤ ਭਾਸ਼ਾਵਾਂ ਦੇ ਨਾਲ ਦਸਤਾਵੇਜ਼ਬੱਧ ਕਰਕੇ, ਇਹ ਡਾਟਾਸੈੱਟ ਭਾਰਤ ਦੀ ਭਾਸ਼ਾਈ ਵਿਰਾਸਤ ਦੇ ਉਸ ਪੱਖ ਨੂੰ ਕੈਪਚਰ ਕਰਦਾ ਹੈ ਜੋ ਗਣਨਾਤਮਕ ਸਰੋਤਾਂ ਵਿੱਚ ਬਹੁਤ ਘੱਟ ਦਰਸਾਇਆ ਜਾਂਦਾ ਹੈ। ਇਸਦਾ ਖੁੱਲ੍ਹਾ ਲਾਇਸੈਂਸ ਉਹਨਾਂ ਅਕਾਦਮਿਕ ਸੰਸਥਾਵਾਂ, ਸਰਕਾਰੀ ਏਜੰਸੀਆਂ ਅਤੇ ਉਦਯੋਗਿਕ ਖੋਜਕਾਰਾਂ ਲਈ ਵਰਤੋਂ ਨੂੰ ਆਸਾਨ ਬਣਾਉਂਦਾ ਹੈ ਜੋ ਹੋਰ ਸ਼ਾਮਿਲ ਕਰਨ ਵਾਲੀਆਂ ਅਤੇ ਪ੍ਰਤੀਨਿਧੀ ਭਾਸ਼ਣ ਤਕਨਾਲੋਜੀਆਂ ਵੱਲ ਕੰਮ ਕਰ ਰਹੇ ਹਨ।

ਰਿਪੋਰਟ