Tucano
ਇਨਪੁੱਟ
ਆਉਟਪੁੱਟ
ਸ਼੍ਰੇਣੀਆਂ
ਥੀਮਾਂ
Tucano ਖੁੱਲ੍ਹੇ-ਵਜ਼ਨਾਂ ਵਾਲੇ ਟ੍ਰਾਂਸਫਾਰਮਰ ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਦਾ ਇੱਕ ਪਰਿਵਾਰ ਹੈ, ਜੋ ਬ੍ਰਾਜ਼ੀਲ ਵਿੱਚ ਵਿਕਸਿਤ ਕੀਤਾ ਗਿਆ ਅਤੇ ਸਿਰਫ਼ ਪੁਰਤਗਾਲੀ-ਭਾਸ਼ਾ ਦੇ ਪਾਠ ’ਤੇ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ। ਇਹ ਮਾਡਲ ਲਗਭਗ 200 ਅਰਬ ਡਿਡੂਪਲੀਕੇਟ ਕੀਤੇ ਪੁਰਤਗਾਲੀ ਟੋਕਨਾਂ ਦੇ ਡਾਟਾਸੈੱਟ GigaVerbo ’ਤੇ ਪਹਿਲਾਂ ਤੋਂ ਪ੍ਰੀ-ਟ੍ਰੇਨ ਕੀਤੇ ਗਏ ਸਨ, ਅਤੇ ਇਹ 160 ਮਿਲੀਅਨ ਤੋਂ 2.4 ਅਰਬ ਪੈਰਾਮੀਟਰਾਂ ਤੱਕ ਦੇ ਚਾਰ ਆਕਾਰਾਂ ਵਿੱਚ ਉਪਲਬਧ ਹਨ।
ਫਾਈਨ-ਟਿਊਨ ਕੀਤੀਆਂ ਕਿਸਮਾਂ ਵਿੱਚ ਨਿਰਦੇਸ਼ਾਂ ਦੀ ਪਾਲਣਾ ਕਰਨ ਵਾਲੀਆਂ ਅਤੇ ਪਸੰਦ-ਅਨੁਕੂਲਿਤ ਵਰਜਨ ਸ਼ਾਮਲ ਹਨ, ਅਤੇ ਸੰਬੰਧਿਤ ਮਲਟੀਮੋਡਲ ਡੈਰੀਵੇਟਿਵਜ਼ ViTucano ਨਾਮ ਹੇਠ ਜਾਰੀ ਕੀਤੇ ਗਏ ਸਨ। Tucano ਦਾ ਉਦੇਸ਼ ਉਹ ਖੋਜਕਾਰਾਂ ਅਤੇ ਡਿਵੈਲਪਰਾਂ ਲਈ ਹੈ ਜੋ ਪੁਰਤਗਾਲੀ ਵਿੱਚ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਪ੍ਰਕਿਰਿਆ (ਨੈਚਰਲ ਲੈਂਗਵੇਜ ਪ੍ਰੋਸੈਸਿੰਗ) ਦੇ ਕੰਮ ਕਰਦੇ ਹਨ—ਇਹ ਇੱਕ ਅਜਿਹੀ ਭਾਸ਼ਾ ਹੈ ਜੋ ਇਤਿਹਾਸਕ ਤੌਰ ’ਤੇ ਵੱਡੇ ਪੱਧਰ ਦੇ ਭਾਸ਼ਾ ਮਾਡਲ ਵਿਕਾਸ ਵਿੱਚ ਘੱਟ ਪ੍ਰਤਿਨਿਧਿਤ ਰਹੀ ਹੈ।
ਇਸ ਪ੍ਰੋਜੈਕਟ ਦਾ ਦਸਤਾਵੇਜ਼ 2025 ਵਿੱਚ ਜਰਨਲ Patterns ਵਿੱਚ ਪ੍ਰਕਾਸ਼ਿਤ ਇੱਕ ਪੇਪਰ ਵਿੱਚ ਦਿੱਤਾ ਗਿਆ ਹੈ ਅਤੇ ਇਹ Apache 2.0 ਲਾਇਸੈਂਸ ਹੇਠ ਜਾਰੀ ਕੀਤਾ ਗਿਆ ਹੈ, ਜਿਸ ਵਿੱਚ ਵਜ਼ਨ ਅਤੇ ਕੋਡ GitHub ’ਤੇ ਜਨਤਕ ਤੌਰ ’ਤੇ ਉਪਲਬਧ ਹਨ। ਮਾਡਲਾਂ ਦੀ ਇਹ ਸੀਰੀਜ਼ ਇਸ ਵੇਲੇ ਆਰਕਾਈਵ ਕੀਤੀ ਗਈ ਹੈ।
ਪਿਛੋਕੜ ਅਤੇ ਵਿਕਾਸ
Tucano ਨੂੰ ਬ੍ਰਾਜ਼ੀਲ ਵਿੱਚ ਖਾਸ ਤੌਰ ‘ਤੇ ਪੁਰਤਗਾਲੀ ਪਾਠ ‘ਤੇ ਤਿਆਰ ਕੀਤੇ ਵੱਡੇ ਪੱਧਰ ਦੇ ਭਾਸ਼ਾਈ ਮਾਡਲਾਂ ਦੀ ਕਮੀ ਨੂੰ ਦੂਰ ਕਰਨ ਲਈ ਇੱਕ ਸਮਰਪਿਤ ਯਤਨ ਵਜੋਂ ਵਿਕਸਿਤ ਕੀਤਾ ਗਿਆ ਸੀ। ਜਦੋਂ ਕਿ ਕਈ ਪ੍ਰਮੁੱਖ ਭਾਸ਼ਾਈ ਮਾਡਲ ਮੁੱਖ ਤੌਰ ‘ਤੇ ਅੰਗਰੇਜ਼ੀ-ਭਾਸ਼ਾ ਦੇ ਕੋਰਪਸ ‘ਤੇ ਤਿਆਰ ਕੀਤੇ ਜਾਂਦੇ ਹਨ, ਪੁਰਤਗਾਲੀ—ਜੋ ਬ੍ਰਾਜ਼ੀਲ, ਪੁਰਤਗਾਲ ਅਤੇ ਹੋਰ ਦੇਸ਼ਾਂ ਵਿੱਚ 250 ਮਿਲੀਅਨ ਤੋਂ ਵੱਧ ਲੋਕਾਂ ਵੱਲੋਂ ਬੋਲੀ ਜਾਂਦੀ ਹੈ—ਇਤਿਹਾਸਕ ਤੌਰ ‘ਤੇ ਫਾਊਂਡੇਸ਼ਨ ਮਾਡਲ ਖੋਜ ਵਿੱਚ ਘੱਟ ਧਿਆਨ ਪ੍ਰਾਪਤ ਕਰਦੀ ਆਈ ਹੈ। Tucano ਪ੍ਰੋਜੈਕਟ ਨੇ ਵੱਡੇ, ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲੇ ਪੁਰਤਗਾਲੀ ਡਾਟਾਸੈੱਟ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਸ਼ੁਰੂ ਤੋਂ ਹੀ ਟ੍ਰਾਂਸਫਾਰਮਰ-ਆਧਾਰਿਤ ਮਾਡਲ ਬਣਾਕੇ ਇਸ ਖਾਲੀਪਣ ਨੂੰ ਪੂਰਾ ਕਰਨ ਦਾ ਲੱਖ ਰੱਖਿਆ।
ਮਾਡਲਾਂ ਨੂੰ GigaVerbo ‘ਤੇ ਪ੍ਰੀ-ਟ੍ਰੇਨ ਕੀਤਾ ਗਿਆ ਸੀ, ਜੋ ਲਗਭਗ 200 ਬਿਲੀਅਨ ਡਿਡਿਊਪਲੀਕੇਟ ਕੀਤੇ ਪੁਰਤਗਾਲੀ ਟੋਕਨਾਂ ਦਾ ਇੱਕ ਕੋਰਪਸ ਹੈ, ਜਿਸਨੂੰ ਸਕੇਲ ‘ਤੇ ਮਜ਼ਬੂਤ ਭਾਸ਼ਾ ਮਾਡਲਿੰਗ ਨੂੰ ਸਮਰਥਨ ਦੇਣ ਲਈ ਇਕੱਠਾ ਕੀਤਾ ਗਿਆ ਸੀ। ਇਹ ਪ੍ਰੋਜੈਕਟ ਪੇਪਰ Tucano: Advancing Neural Text Generation for Portuguese ਵਿੱਚ ਦਰਜ ਹੈ, ਜੋ 2025 ਵਿੱਚ ਜਰਨਲ Patterns ਵਿੱਚ ਪ੍ਰਕਾਸ਼ਿਤ ਹੋਇਆ, ਅਤੇ ਸਾਰੇ ਵਜ਼ਨ ਤੇ ਟ੍ਰੇਨਿੰਗ ਕੋਡ GitHub ‘ਤੇ Apache 2.0 ਲਾਇਸੈਂਸ ਹੇਠ ਜਨਤਕ ਤੌਰ ‘ਤੇ ਉਪਲਬਧ ਹਨ।
ਮਾਡਲ ਵੈਰੀਐਂਟ ਅਤੇ ਫਾਈਨ-ਟਿਊਨ ਕੀਤੀਆਂ ਵਰਜਨਾਂ
Tucano ਪਰਿਵਾਰ ਚਾਰ ਬੇਸ ਮਾਡਲ ਆਕਾਰਾਂ ਤੱਕ ਫੈਲਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਖੋਜਕਾਰ ਅਤੇ ਡਿਵੈਲਪਰ ਆਪਣੀਆਂ ਗਣਨਾਤਮਕ ਸੀਮਾਵਾਂ ਅਤੇ ਕੰਮ ਦੀਆਂ ਲੋੜਾਂ ਅਨੁਸਾਰ ਉਚਿਤ ਮਾਡਲ ਚੁਣ ਸਕਦੇ ਹਨ:
- Tucano-160m – 160 ਮਿਲੀਅਨ ਪੈਰਾਮੀਟਰ
- Tucano-630m – 630 ਮਿਲੀਅਨ ਪੈਰਾਮੀਟਰ
- Tucano-1b1 – ਲਗਭਗ 1.1 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ
- Tucano-2b4 – ਲਗਭਗ 2.4 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ
ਬੇਸ ਪ੍ਰੀ-ਟ੍ਰੇਨ ਮਾਡਲਾਂ ਦੇ ਇਲਾਵਾ, ਪ੍ਰੋਜੈਕਟ ਨੇ ਕਈ ਫਾਈਨ-ਟਿਊਨ ਕੀਤੀਆਂ ਡੈਰੀਵੇਟਿਵਜ਼ ਵੀ ਤਿਆਰ ਕੀਤੀਆਂ। Tucano-SFT ਅਤੇ Tucano-DPO ਕ੍ਰਮਵਾਰ ਸੁਪਰਵਾਈਜ਼ਡ ਫਾਈਨ-ਟਿਊਨਿੰਗ ਅਤੇ ਡਾਇਰੈਕਟ ਪ੍ਰਿਫਰੈਂਸ ਆਪਟੀਮਾਈਜ਼ੇਸ਼ਨ ਵੈਰੀਐਂਟ ਦਰਸਾਉਂਦੇ ਹਨ, ਜਦਕਿ Tucano-2b4-Instruct ਸਭ ਤੋਂ ਵੱਡੇ ਬੇਸ ਮਾਡਲ ਦੀ ਇੱਕ ਇੰਸਟਰਕਸ਼ਨ-ਫਾਲੋ ਕਰਨ ਵਾਲੀ ਵਰਜਨ ਹੈ। ਇਹ ਫਾਈਨ-ਟਿਊਨ ਕੀਤੀਆਂ ਵਰਜਨਾਂ ਬੇਸ ਮਾਡਲਾਂ ਦੀ ਉਪਯੋਗਤਾ ਨੂੰ ਗੱਲਬਾਤੀ ਅਤੇ ਕੰਮ-ਕੇਂਦਰਿਤ ਐਪਲੀਕੇਸ਼ਨਾਂ ਵੱਲ ਵਧਾਉਂਦੀਆਂ ਹਨ।
ਸੰਬੰਧਿਤ ਮਲਟੀਮੋਡਲ ਮਾਡਲ, ViTucano-1b5-v1 ਅਤੇ ViTucano-2b8-v1, ਵੀ ViTucano ਨਾਮ ਹੇਠ ਜਾਰੀ ਕੀਤੇ ਗਏ ਸਨ, ਜੋ ਇਹ ਦਰਸਾਉਂਦੇ ਹਨ ਕਿ ਅਗਲਾ ਕੰਮ ਪੁਰਤਗਾਲੀ ਪਾਠ ਦੀ ਸਮਝ ਦੇ ਨਾਲ ਵਿਜ਼ੂਅਲ ਮੋਡੈਲਿਟੀਆਂ ਨੂੰ ਸ਼ਾਮਲ ਕਰਦਾ ਹੈ।
ਵਰਤੋਂ ਦੇ ਕੇਸ ਅਤੇ ਉਦੇਸ਼ਿਤ ਦਰਸ਼ਕ
Tucano ਮੁੱਖ ਤੌਰ ‘ਤੇ ਉਨ੍ਹਾਂ ਖੋਜਕਾਰਾਂ ਅਤੇ ਡਿਵੈਲਪਰਾਂ ਲਈ ਹੈ ਜੋ ਪੁਰਤਗਾਲੀ ਵਿੱਚ ਨੈਚਰਲ ਲੈਂਗਵੇਜ ਪ੍ਰੋਸੈਸਿੰਗ ਦੇ ਕੰਮਾਂ ‘ਤੇ ਕੰਮ ਕਰਦੇ ਹਨ। ਸੰਭਾਵਿਤ ਵਰਤੋਂ ਦੇ ਕੇਸਾਂ ਵਿੱਚ ਪਾਠ ਉਤਪੱਤੀ, ਭਾਸ਼ਾ ਮਾਡਲਿੰਗ ਬੈਂਚਮਾਰਕ, ਪੁਰਤਗਾਲੀ ਦੀਆਂ ਡੋਮੇਨ-ਵਿਸ਼ੇਸ਼ ਐਪਲੀਕੇਸ਼ਨਾਂ ਲਈ ਫਾਈਨ-ਟਿਊਨਿੰਗ, ਅਤੇ ਘੱਟ-ਸਰੋਤ ਭਾਸ਼ਾਈ ਸੰਦਰਭਾਂ ਵਿੱਚ ਮਾਡਲ ਦੇ ਵਿਹਾਰ ਦਾ ਅਧਿਐਨ ਕਰਨ ਲਈ ਇੱਕ ਖੋਜ ਬੇਸਲਾਈਨ ਵਜੋਂ ਵਰਤਣਾ ਸ਼ਾਮਲ ਹੈ। ਕਈ ਮਾਡਲ ਆਕਾਰਾਂ ਦੀ ਉਪਲਬਧਤਾ ਤਾਇਨਾਤੀ ਦੇ ਵੱਖ-ਵੱਖ ਦ੍ਰਿਸ਼ਾਂ ਨੂੰ ਸਮਰਥਨ ਦਿੰਦੀ ਹੈ—ਸੀਮਿਤ ਹਾਰਡਵੇਅਰ ‘ਤੇ ਅਕਾਦਮਿਕ ਪ੍ਰਯੋਗ ਤੋਂ ਲੈ ਕੇ ਵਧੇਰੇ ਸਰੋਤ-ਗ੍ਰਾਹੀ ਐਪਲਾਈਡ ਖੋਜ ਤੱਕ।
ਕਿਉਂਕਿ ਮਾਡਲਾਂ ਨੂੰ ਖੁੱਲ੍ਹੇ ਵਜ਼ਨਾਂ ਨਾਲ ਪਰਮਿਸਿਵ Apache 2.0 ਲਾਇਸੈਂਸ ਹੇਠ ਜਾਰੀ ਕੀਤਾ ਗਿਆ ਹੈ, ਉਹਨਾਂ ਨੂੰ ਆਜ਼ਾਦੀ ਨਾਲ ਵਰਤਿਆ, ਸੋਧਿਆ ਅਤੇ ਮੁੜ ਵੰਡਿਆ ਜਾ ਸਕਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਉਹ ਇੱਕ ਵੱਡੀ ਕਮਿਊਨਿਟੀ ਲਈ ਪਹੁੰਚਯੋਗ ਬਣ ਜਾਂਦੇ ਹਨ, ਜਿਸ ਵਿੱਚ ਉਹ ਲੋਕ ਵੀ ਸ਼ਾਮਲ ਹਨ ਜਿਨ੍ਹਾਂ ਕੋਲ ਪ੍ਰੋਪ੍ਰਾਇਟਰੀ ਮਾਡਲ API ਤੱਕ ਪਹੁੰਚ ਨਹੀਂ ਹੈ।
ਮੌਜੂਦਾ ਸਥਿਤੀ
Tucano ਮਾਡਲ ਸੀਰੀਜ਼ ਇਸ ਵੇਲੇ ਆਰਕਾਈਵ ਕੀਤੀ ਗਈ ਹੈ, ਜਿਸਦਾ ਅਰਥ ਹੈ ਕਿ ਸਰਗਰਮ ਵਿਕਾਸ ਸਮਾਪਤ ਹੋ ਚੁੱਕਾ ਹੈ। ਵਜ਼ਨ, ਕੋਡ, ਅਤੇ ਸੰਬੰਧਿਤ ਦਸਤਾਵੇਜ਼ੀਕਰਨ ਪ੍ਰੋਜੈਕਟ ਦੇ GitHub ਰਿਪੋਜ਼ਟਰੀ ਰਾਹੀਂ ਹਵਾਲੇ ਅਤੇ ਖੋਜ ਕਮਿਊਨਿਟੀ ਵੱਲੋਂ ਅੱਗੇ ਦੀ ਵਰਤੋਂ ਲਈ ਜਨਤਕ ਤੌਰ ‘ਤੇ ਉਪਲਬਧ ਰਹਿੰਦੇ ਹਨ। 2025 ਵਿੱਚ Patterns ਵਿੱਚ ਖੋਜ ਨਤੀਜਿਆਂ ਦੀ ਪ੍ਰਕਾਸ਼ਨਾ ਪ੍ਰੋਜੈਕਟ ਨਾਲ ਸੰਬੰਧਿਤ ਵਿਧੀ, ਟ੍ਰੇਨਿੰਗ ਡਾਟਾ, ਅਤੇ ਮੁਲਾਂਕਣ ਨਤੀਜਿਆਂ ਦਾ ਪੀਅਰ-ਰੀਵਿਊਡ ਰਿਕਾਰਡ ਪ੍ਰਦਾਨ ਕਰਦੀ ਹੈ, ਜੋ ਦੁਹਰਾਉਣਯੋਗਤਾ ਅਤੇ ਅੱਗੇ ਦੇ ਅਧਿਐਨ ਨੂੰ ਸਮਰਥਨ ਦਿੰਦੀ ਹੈ।