ಟ್ರಾನ್ಸ್‌ಫಾರ್ಮರ್ Apache 2.0 Yes
Português

ಇನ್‌ಪುಟ್

text

ಔಟ್‌ಪುಟ್

text

ವರ್ಗಗಳು

ಥೀಮ್‌ಗಳು

generative ainlpresearch

Tucano ಎಂಬುದು ಬ್ರೆಜಿಲ್‌ನಲ್ಲಿ ಅಭಿವೃದ್ಧಿಪಡಿಸಲಾದ ಮತ್ತು ಕೇವಲ ಪೋರ್ಚುಗೀಸ್ ಭಾಷೆಯ ಪಠ್ಯದ ಮೇಲೆ ತರಬೇತಿ ನೀಡಲಾದ ಓಪನ್-ವೇಟ್‌ಗಳ ಟ್ರಾನ್ಸ್‌ಫಾರ್ಮರ್ ಭಾಷಾ ಮಾದರಿಗಳ ಕುಟುಂಬವಾಗಿದೆ. ಈ ಮಾದರಿಗಳನ್ನು ಸುಮಾರು 200 ಬಿಲಿಯನ್ ಡಿಡುಪ್ಲಿಕೇಟ್ ಮಾಡಲಾದ ಪೋರ್ಚುಗೀಸ್ ಟೋಕನ್‌ಗಳ ಡೇಟಾಸೆಟ್ ಆಗಿರುವ GigaVerbo ಮೇಲೆ ಪೂರ್ವ-ತರಬೇತಿ ನೀಡಲಾಗಿದ್ದು, 160 ಮಿಲಿಯನ್‌ನಿಂದ 2.4 ಬಿಲಿಯನ್ ಪ್ಯಾರಾಮೀಟರ್‌ಗಳವರೆಗೆ ಇರುವ ನಾಲ್ಕು ಗಾತ್ರಗಳಲ್ಲಿ ಲಭ್ಯವಿದೆ.

ಫೈನ್-ಟ್ಯೂನ್ ಮಾಡಲಾದ ರೂಪಾಂತರಗಳಲ್ಲಿ ಸೂಚನೆಗಳನ್ನು ಅನುಸರಿಸುವ ಮತ್ತು ಆದ್ಯತೆ-ಆಪ್ಟಿಮೈಸ್ ಮಾಡಿದ ಆವೃತ್ತಿಗಳು ಸೇರಿವೆ, ಮತ್ತು ಸಂಬಂಧಿತ ಮಲ್ಟಿಮೋಡಲ್ ಡೆರಿವೇಟಿವ್‌ಗಳನ್ನು ViTucano ಹೆಸರಿನಲ್ಲಿ ಬಿಡುಗಡೆ ಮಾಡಲಾಗಿದೆ. ಪೋರ್ಚುಗೀಸ್‌ನಲ್ಲಿ ನೈಸರ್ಗಿಕ ಭಾಷಾ ಸಂಸ್ಕರಣಾ ಕಾರ್ಯಗಳಲ್ಲಿ ಕೆಲಸ ಮಾಡುವ ಸಂಶೋಧಕರು ಮತ್ತು ಡೆವಲಪರ್‌ಗಳಿಗೆ Tucano ಉದ್ದೇಶಿತವಾಗಿದೆ; ಇತಿಹಾಸ적으로 ದೊಡ್ಡ ಪ್ರಮಾಣದ ಭಾಷಾ ಮಾದರಿ ಅಭಿವೃದ್ಧಿಯಲ್ಲಿ ಈ ಭಾಷೆಗೆ ಕಡಿಮೆ ಪ್ರತಿನಿಧಿತ್ವವಿದೆ.

ಈ ಯೋಜನೆಯನ್ನು Patterns ಎಂಬ ಜರ್ನಲ್‌ನಲ್ಲಿ ಪ್ರಕಟವಾದ 2025ರ ಲೇಖನದಲ್ಲಿ ದಾಖಲಿಸಲಾಗಿದೆ ಮತ್ತು Apache 2.0 ಪರವಾನಗಿಯ ಅಡಿಯಲ್ಲಿ ಬಿಡುಗಡೆ ಮಾಡಲಾಗಿದೆ; ತೂಕಗಳು ಮತ್ತು ಕೋಡ್ GitHub ನಲ್ಲಿ ಸಾರ್ವಜನಿಕವಾಗಿ ಲಭ್ಯವಿವೆ. ಈ ಮಾದರಿ ಸರಣಿಯನ್ನು ಪ್ರಸ್ತುತ ಆರ್ಕೈವ್ ಮಾಡಲಾಗಿದೆ.

ಹಿನ್ನೆಲೆ ಮತ್ತು ಅಭಿವೃದ್ಧಿ

ಪೋರ್ಚುಗೀಸ್ ಪಠ್ಯಕ್ಕೆ ವಿಶೇಷವಾಗಿ ತರಬೇತಿ ನೀಡಲಾದ ದೊಡ್ಡ ಪ್ರಮಾಣದ ಭಾಷಾ ಮಾದರಿಗಳ ಕೊರತೆಯನ್ನು ಪರಿಹರಿಸುವ ಸಮರ್ಪಿತ ಪ್ರಯತ್ನವಾಗಿ Tucano ಅನ್ನು ಬ್ರೆಜಿಲ್‌ನಲ್ಲಿ ಅಭಿವೃದ್ಧಿಪಡಿಸಲಾಯಿತು. ಅನೇಕ ಪ್ರಮುಖ ಭಾಷಾ ಮಾದರಿಗಳನ್ನು ಮುಖ್ಯವಾಗಿ ಇಂಗ್ಲಿಷ್ ಭಾಷೆಯ ಕಾರ್ಪಸ್‌ಗಳ ಮೇಲೆ ತರಬೇತಿ ನೀಡಲಾಗುತ್ತಿದ್ದರೂ, ಬ್ರೆಜಿಲ್, ಪೋರ್ಚುಗಲ್ ಮತ್ತು ಇತರ ರಾಷ್ಟ್ರಗಳಲ್ಲಿ 250 ಮಿಲಿಯನ್‌ಗಿಂತ ಹೆಚ್ಚು ಜನರು ಮಾತನಾಡುವ ಪೋರ್ಚುಗೀಸ್‌ಗೆ ಇತಿಹಾಸ적으로 ಫೌಂಡೇಶನ್ ಮಾದರಿ ಸಂಶೋಧನೆಯಲ್ಲಿ ಕಡಿಮೆ ಗಮನ ದೊರೆತಿದೆ. ದೊಡ್ಡ, ಉನ್ನತ ಗುಣಮಟ್ಟದ ಪೋರ್ಚುಗೀಸ್ ಡೇಟಾಸೆಟ್ ಬಳಸಿ ನೆಲೆಯಿಂದಲೇ ಟ್ರಾನ್ಸ್‌ಫಾರ್ಮರ್ ಆಧಾರಿತ ಮಾದರಿಗಳನ್ನು ನಿರ್ಮಿಸುವ ಮೂಲಕ ಈ ಅಂತರವನ್ನು ಮುಚ್ಚುವ ಗುರಿಯನ್ನು Tucano ಯೋಜನೆ ಹೊಂದಿತ್ತು.

ಸುಮಾರು 200 ಬಿಲಿಯನ್ ಡಿಡುಪ್ಲಿಕೇಟ್ ಮಾಡಲಾದ ಪೋರ್ಚುಗೀಸ್ ಟೋಕನ್‌ಗಳಿಂದ ಕೂಡಿದ, ಪ್ರಮಾಣದಲ್ಲಿ ದೃಢ ಭಾಷಾ ಮಾದರೀಕರಣಕ್ಕೆ ಬೆಂಬಲ ನೀಡಲು ಸಂಗ್ರಹಿಸಲಾದ GigaVerbo ಮೇಲೆ ಮಾದರಿಗಳನ್ನು ಪೂರ್ವತರಬೇತಿ ಮಾಡಲಾಯಿತು. ಈ ಯೋಜನೆಯನ್ನು Tucano: Advancing Neural Text Generation for Portuguese ಎಂಬ ಲೇಖನದಲ್ಲಿ ದಾಖಲಿಸಲಾಗಿದೆ; ಇದು 2025ರಲ್ಲಿ Patterns ಜರ್ನಲ್‌ನಲ್ಲಿ ಪ್ರಕಟವಾಗಿದೆ. ಜೊತೆಗೆ ಎಲ್ಲಾ ತೂಕಗಳು ಮತ್ತು ತರಬೇತಿ ಕೋಡ್‌ಗಳು Apache 2.0 ಪರವಾನಗಿಯ ಅಡಿಯಲ್ಲಿ GitHub ನಲ್ಲಿ ಸಾರ್ವಜನಿಕವಾಗಿ ಲಭ್ಯವಿವೆ.

ಮಾದರಿ ರೂಪಾಂತರಗಳು ಮತ್ತು ಸೂಕ್ಷ್ಮ-ಸಂಯೋಜಿತ ಆವೃತ್ತಿಗಳು

Tucano ಕುಟುಂಬವು ನಾಲ್ಕು ಮೂಲ ಮಾದರಿ ಗಾತ್ರಗಳನ್ನು ಒಳಗೊಂಡಿದ್ದು, ಸಂಶೋಧಕರು ಮತ್ತು ಡೆವಲಪರ್‌ಗಳು ತಮ್ಮ ಗಣನೀಯ ಮಿತಿಗಳು ಮತ್ತು ಕಾರ್ಯ ಅಗತ್ಯಗಳಿಗೆ ತಕ್ಕ ಮಾದರಿಯನ್ನು ಆಯ್ಕೆಮಾಡಿಕೊಳ್ಳಲು ಅನುಕೂಲ ಮಾಡುತ್ತದೆ:

  • Tucano-160m – 160 ಮಿಲಿಯನ್ ಪ್ಯಾರಾಮೀಟರ್‌ಗಳು
  • Tucano-630m – 630 ಮಿಲಿಯನ್ ಪ್ಯಾರಾಮೀಟರ್‌ಗಳು
  • Tucano-1b1 – ಸುಮಾರು 1.1 ಬಿಲಿಯನ್ ಪ್ಯಾರಾಮೀಟರ್‌ಗಳು
  • Tucano-2b4 – ಸುಮಾರು 2.4 ಬಿಲಿಯನ್ ಪ್ಯಾರಾಮೀಟರ್‌ಗಳು

ಮೂಲ ಪೂರ್ವತರಬೇತಿ ಮಾದರಿಗಳ ಜೊತೆಗೆ, ಈ ಯೋಜನೆ ಹಲವು ಸೂಕ್ಷ್ಮ-ಸಂಯೋಜಿತ ಉತ್ಪನ್ನಗಳನ್ನು ಕೂಡ ತಯಾರಿಸಿದೆ. Tucano-SFT ಮತ್ತು Tucano-DPO ಕ್ರಮವಾಗಿ ಮೇಲ್ವಿಚಾರಿತ ಸೂಕ್ಷ್ಮ-ಸಂಯೋಜನೆ ಮತ್ತು ನೇರ ಆದ್ಯತಾ ಆಪ್ಟಿಮೈಜೇಶನ್ ರೂಪಾಂತರಗಳನ್ನು ಪ್ರತಿನಿಧಿಸುತ್ತವೆ; ಇನ್ನು Tucano-2b4-Instruct ಅತಿ ದೊಡ್ಡ ಮೂಲ ಮಾದರಿಯ ಸೂಚನೆಗಳನ್ನು ಅನುಸರಿಸುವ ಆವೃತ್ತಿಯಾಗಿದೆ. ಈ ಸೂಕ್ಷ್ಮ-ಸಂಯೋಜಿತ ಆವೃತ್ತಿಗಳು ಮೂಲ ಮಾದರಿಗಳ ಉಪಯೋಗವನ್ನು ಸಂಭಾಷಣಾತ್ಮಕ ಮತ್ತು ಕಾರ್ಯಕೇಂದ್ರೀತ ಅನ್ವಯಗಳಿಗೆ ವಿಸ್ತರಿಸುತ್ತವೆ.

ಸಂಬಂಧಿತ ಬಹುಮಾಧ್ಯಮ ಮಾದರಿಗಳಾದ ViTucano-1b5-v1 ಮತ್ತು ViTucano-2b8-v1 ಕೂಡ ViTucano ಹೆಸರಿನ ಅಡಿಯಲ್ಲಿ ಬಿಡುಗಡೆಗೊಂಡಿದ್ದು, ಪೋರ್ಚುಗೀಸ್ ಪಠ್ಯ ಅರ್ಥಗ್ರಹಣದ ಜೊತೆಗೆ ದೃಶ್ಯ ಮಾಧ್ಯಮಗಳನ್ನು ಒಳಗೊಂಡ ಮುಂದಿನ ಕೆಲಸವನ್ನು ಸೂಚಿಸುತ್ತದೆ.

ಬಳಕೆ ಪ್ರಕರಣಗಳು ಮತ್ತು ಉದ್ದೇಶಿತ ಪ್ರೇಕ್ಷಕರು

Tucano ಮುಖ್ಯವಾಗಿ ಪೋರ್ಚುಗೀಸ್‌ನಲ್ಲಿ ನೈಸರ್ಗಿಕ ಭಾಷಾ ಸಂಸ್ಕರಣಾ ಕಾರ್ಯಗಳ ಮೇಲೆ ಕೆಲಸ ಮಾಡುವ ಸಂಶೋಧಕರು ಮತ್ತು ಡೆವಲಪರ್‌ಗಳಿಗೆ ಉದ್ದೇಶಿಸಲಾಗಿದೆ. ಸಾಧ್ಯವಾದ ಬಳಕೆ ಪ್ರಕರಣಗಳಲ್ಲಿ ಪಠ್ಯ ನಿರ್ಮಾಣ, ಭಾಷಾ ಮಾದರೀಕರಣ ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳು, ನಿರ್ದಿಷ್ಟ ಕ್ಷೇತ್ರಗಳಿಗೆ ಸಂಬಂಧಿಸಿದ ಪೋರ್ಚುಗೀಸ್ ಅನ್ವಯಗಳಿಗಾಗಿ ಸೂಕ್ಷ್ಮ-ಸಂಯೋಜನೆ, ಹಾಗೂ ಕಡಿಮೆ ಸಂಪನ್ಮೂಲಗಳಿರುವ ಭಾಷಾ ಪರಿಸರಗಳಲ್ಲಿ ಮಾದರಿಯ ವರ್ತನೆಯನ್ನು ಅಧ್ಯಯನ ಮಾಡಲು ಸಂಶೋಧನಾ ಮೂಲಭೂತ ಮಾನದಂಡ (baseline) ಆಗಿ ಬಳಸುವುದು ಸೇರಿವೆ. ಅನೇಕ ಮಾದರಿ ಗಾತ್ರಗಳ ಲಭ್ಯತೆ, ಸೀಮಿತ ಹಾರ್ಡ್‌ವೇರ್‌ನಲ್ಲಿ ಶೈಕ್ಷಣಿಕ ಪ್ರಯೋಗಗಳಿಂದ ಹಿಡಿದು ಹೆಚ್ಚು ಸಂಪನ್ಮೂಲ ಅಗತ್ಯವಿರುವ ಅನ್ವಯಿಕ ಸಂಶೋಧನೆಗಳವರೆಗೆ ವಿವಿಧ ನಿಯೋಜನೆ ಸಂದರ್ಭಗಳನ್ನು ಬೆಂಬಲಿಸುತ್ತದೆ.

ಮಾದರಿಗಳನ್ನು ಮುಕ್ತ ತೂಕಗಳೊಂದಿಗೆ ಅನುಮತಿಪೂರ್ಣ Apache 2.0 ಪರವಾನಗಿಯ ಅಡಿಯಲ್ಲಿ ಬಿಡುಗಡೆ ಮಾಡಿರುವುದರಿಂದ, ಅವನ್ನು ಮುಕ್ತವಾಗಿ ಬಳಸಬಹುದು, ತಿದ್ದುಪಡಿ ಮಾಡಬಹುದು ಮತ್ತು ಮರುಹಂಚಬಹುದು; ಇದರಿಂದ ಸ್ವಂತ ಮಾದರಿ API ಗಳಿಗೆ ಪ್ರವೇಶವಿಲ್ಲದವರನ್ನೂ ಒಳಗೊಂಡಂತೆ ವಿಶಾಲ ಸಮುದಾಯಕ್ಕೆ ಅವು ಲಭ್ಯವಾಗುತ್ತವೆ.

ಪ್ರಸ್ತುತ ಸ್ಥಿತಿ

Tucano ಮಾದರಿ ಸರಣಿಯನ್ನು ಪ್ರಸ್ತುತ ಆರ್ಕೈವ್ ಮಾಡಲಾಗಿದೆ; ಅಂದರೆ ಸಕ್ರಿಯ ಅಭಿವೃದ್ಧಿ ಮುಕ್ತಾಯಗೊಂಡಿದೆ. ತೂಕಗಳು, ಕೋಡ್ ಮತ್ತು ಸಂಬಂಧಿತ ದಾಖಲೆಗಳು ಸಂಶೋಧನಾ ಸಮುದಾಯದ ಉಲ್ಲೇಖ ಮತ್ತು ಮುಂದುವರಿದ ಬಳಕೆಗೆ ಯೋಜನೆಯ GitHub ರೆಪೊಸಿಟರಿಯ ಮೂಲಕ ಸಾರ್ವಜನಿಕವಾಗಿ ಲಭ್ಯವಿವೆ. 2025ರಲ್ಲಿ Patterns ನಲ್ಲಿ ಕಂಡುಬಂದ ಫಲಿತಾಂಶಗಳ ಪ್ರಕಟಣೆ, ಯೋಜನೆಗೆ ಸಂಬಂಧಿಸಿದ ವಿಧಾನಶಾಸ್ತ್ರ, ತರಬೇತಿ ಡೇಟಾ ಮತ್ತು ಮೌಲ್ಯಮಾಪನ ಫಲಿತಾಂಶಗಳ ಪಿಯರ್-ರಿವ್ಯೂ ದಾಖಲೆ ಒದಗಿಸಿ, ಪುನರುತ್ಪಾದಕತೆ ಮತ್ತು ಹೆಚ್ಚಿನ ಅಧ್ಯಯನಕ್ಕೆ ಬೆಂಬಲ ನೀಡುತ್ತದೆ.

ವರದಿ