Tucano

இணையதளத்தைப் பார்வையிடுங்கள்

மின்மாற்றி Apache 2.0 Yes

உள்ளீடு

text

வெளியீடு

text

வகைகள்

LLM & Language Models

தீம்கள்

generative ainlpresearch

Tucano என்பது பிரேசிலில் உருவாக்கப்பட்டு, போர்த்துகீஸ் மொழி உரைகளில் மட்டுமே பயிற்சி அளிக்கப்பட்ட திறந்த-எடைகள் கொண்ட டிரான்ஸ்ஃபார்மர் மொழி மாதிரிகளின் ஒரு குடும்பம். இந்த மாதிரிகள் சுமார் 200 பில்லியன் அளவிலான நகல் நீக்கப்பட்ட போர்த்துகீஸ் டோக்கன்களைக் கொண்ட GigaVerbo என்ற தரவுத்தளத்தில் முன்பயிற்சி செய்யப்பட்டுள்ளன; மேலும் 160 மில்லியன் முதல் 2.4 பில்லியன் அளவிலான அளவுகளில் நான்கு விதமான அளவுகளில் கிடைக்கின்றன.

நுணுக்கமாகப் பயிற்சி செய்யப்பட்ட பதிப்புகளில் வழிமுறை பின்பற்றும் மற்றும் விருப்பத்தேர்வு அடிப்படையில் மேம்படுத்தப்பட்ட பதிப்புகள் அடங்கும்; தொடர்புடைய பல்மாதிரி (multimodal) வழித்தோன்றல்கள் ViTucano என்ற பெயரில் வெளியிடப்பட்டன. வரலாற்று ரீதியாக பெரிய அளவிலான மொழி மாதிரி மேம்பாட்டில் குறைவாக பிரதிநிதித்துவம் பெற்ற போர்த்துகீஸ் மொழியில் இயற்கை மொழி செயலாக்க பணிகளில் ஈடுபடும் ஆராய்ச்சியாளர்கள் மற்றும் டெவலப்பர்களுக்காக Tucano வடிவமைக்கப்பட்டுள்ளது.

இந்த திட்டம் Patterns என்ற இதழில் 2025 ஆம் ஆண்டில் வெளியிடப்பட்ட ஒரு கட்டுரையில் ஆவணப்படுத்தப்பட்டுள்ளது; மேலும் Apache 2.0 உரிமத்தின் கீழ் வெளியிடப்பட்டுள்ளது. எடைகளும் குறியீடும் GitHub-ல் பொதுவாக கிடைக்கின்றன. இந்த மாதிரி தொடர் தற்போது காப்பகப்படுத்தப்பட்டுள்ளது.

பின்னணி மற்றும் வளர்ச்சி

போர்ச்சுகீஸ் மொழி உரைக்காக குறிப்பாகப் பயிற்சி செய்யப்பட்ட பெரிய அளவிலான மொழி மாதிரிகள் குறைவாக இருப்பதை தீர்க்கும் நோக்கில், Tucano பிரேசிலில் ஒரு அர்ப்பணிப்பான முயற்சியாக உருவாக்கப்பட்டது. பல முக்கிய மொழி மாதிரிகள் பெரும்பாலும் ஆங்கில மொழி தொகுப்புகளிலேயே பயிற்சி பெறுகின்றன; ஆனால் பிரேசில், போர்ச்சுகல் மற்றும் பிற நாடுகள் முழுவதும் 250 மில்லியனுக்கும் மேற்பட்ட மக்களால் பேசப்படும் போர்ச்சுகீஸ் மொழி, அடித்தள மாதிரி ஆராய்ச்சியில் வரலாற்று ரீதியாக குறைவான கவனத்தை பெற்றுள்ளது. பெரிய, உயர்தரமான போர்ச்சுகீஸ் தரவுத்தொகுப்பைப் பயன்படுத்தி அடித்தளத்திலிருந்தே டிரான்ஸ்ஃபார்மர் அடிப்படையிலான மாதிரிகளை உருவாக்குவதன் மூலம் இந்த இடைவெளியை நிரப்புவதே Tucano திட்டத்தின் நோக்கமாக இருந்தது.

இந்த மாதிரிகள் சுமார் 200 பில்லியன் அளவிலான நகல் நீக்கப்பட்ட போர்ச்சுகீஸ் டோக்கன்களைக் கொண்ட GigaVerbo என்ற தொகுப்பில் முன்பயிற்சி (pre-training) செய்யப்பட்டன; இது அளவிலான (scale) மொழி மாதிரி உருவாக்கத்தை வலுவாக ஆதரிக்க அமைக்கப்பட்டது. இந்த திட்டம் Tucano: Advancing Neural Text Generation for Portuguese என்ற ஆய்வுக் கட்டுரையில் பதிவு செய்யப்பட்டுள்ளது; இது 2025 ஆம் ஆண்டில் Patterns என்ற இதழில் வெளியிடப்பட்டது. மேலும், அனைத்து எடைகளும் (weights) பயிற்சி குறியீடும் (training code) Apache 2.0 உரிமத்தின் கீழ் GitHub-ல் பொதுவாக கிடைக்கின்றன.

மாதிரி வகைகள் மற்றும் நுண்மைப்படுத்தப்பட்ட பதிப்புகள்

Tucano குடும்பம் நான்கு அடிப்படை (base) மாதிரி அளவுகளை உள்ளடக்கியுள்ளது; இதனால் ஆராய்ச்சியாளர்கள் மற்றும் டெவலப்பர்கள் தங்களின் கணினி கட்டுப்பாடுகள் மற்றும் பணித் தேவைகளுக்கு ஏற்ப பொருத்தமான மாதிரியைத் தேர்வு செய்ய முடியும்:

Tucano-160m – 160 மில்லியன் அளவுருக்கள்
Tucano-630m – 630 மில்லியன் அளவுருக்கள்
Tucano-1b1 – சுமார் 1.1 பில்லியன் அளவுருக்கள்
Tucano-2b4 – சுமார் 2.4 பில்லியன் அளவுருக்கள்

அடிப்படை முன்பயிற்சி மாதிரிகளுக்கு கூடுதலாக, இந்த திட்டம் பல நுண்மைப்படுத்தப்பட்ட (fine-tuned) பெறுபேறுகளையும் உருவாக்கியது. Tucano-SFT மற்றும் Tucano-DPO முறையே மேற்பார்வையுடன் செய்யப்படும் நுண்மைப்படுத்தல் (supervised fine-tuning) மற்றும் நேரடி விருப்ப மேம்படுத்தல் (direct preference optimization) வகைகளை குறிக்கின்றன; அதேவேளை Tucano-2b4-Instruct என்பது மிகப்பெரிய அடிப்படை மாதிரியின் கட்டளைகளைப் பின்பற்றும் (instruction-following) பதிப்பாகும். இந்த நுண்மைப்படுத்தப்பட்ட பதிப்புகள், அடிப்படை மாதிரிகளின் பயன்பாட்டை உரையாடல் மற்றும் பணியை மையமாகக் கொண்ட பயன்பாடுகளுக்கு விரிவுபடுத்துகின்றன.

ViTucano-1b5-v1 மற்றும் ViTucano-2b8-v1 என்ற தொடர்புடைய பலமாதிரி (multimodal) மாதிரிகளும் ViTucano என்ற பெயரில் வெளியிடப்பட்டன; இது போர்ச்சுகீஸ் உரை புரிதலுடன் காட்சி (visual) முறைகளையும் இணைக்கும் கீழ்நிலை (downstream) பணிகள் இருப்பதை சுட்டிக்காட்டுகிறது.

பயன்பாட்டு வழக்குகள் மற்றும் நோக்கமிடப்பட்ட பார்வையாளர்கள்

Tucano முதன்மையாக போர்ச்சுகீஸ் மொழியில் இயற்கை மொழி செயலாக்க (natural language processing) பணிகளில் ஈடுபடும் ஆராய்ச்சியாளர்கள் மற்றும் டெவலப்பர்களை நோக்கமாகக் கொண்டுள்ளது. சாத்தியமான பயன்பாட்டு வழக்குகளில் உரை உருவாக்கம், மொழி மாதிரி பெஞ்ச்மார்க்குகள், குறிப்பிட்ட துறை சார்ந்த போர்ச்சுகீஸ் பயன்பாடுகளுக்கான நுண்மைப்படுத்தல், மேலும் குறைந்த வள (lower-resource) மொழி சூழல்களில் மாதிரியின் நடத்தை குறித்து ஆய்வு செய்வதற்கான ஆராய்ச்சி அடிப்படை (research baseline) ஆகியவை அடங்கும். பல்வேறு மாதிரி அளவுகள் கிடைப்பதால், குறைந்த ஹார்ட்வேர் கொண்ட சூழலில் கல்வி சார்ந்த பரிசோதனைகளிலிருந்து அதிக வளம் தேவைப்படும் பயன்பாட்டு ஆராய்ச்சி வரை பல்வேறு வெளியீட்டு (deployment) சூழல்களை ஆதரிக்கிறது.

மாதிரிகள் திறந்த எடைகளுடன் அனுமதிப்பான Apache 2.0 உரிமத்தின் கீழ் வெளியிடப்பட்டுள்ளதால், அவற்றை சுதந்திரமாகப் பயன்படுத்தவும், மாற்றவும், மீளவிநியோகிக்கவும் முடியும்; இதனால் தனியுரிம (proprietary) மாதிரி API-களுக்கு அணுகல் இல்லாதவர்களையும் உள்ளடக்கிய பரந்த சமூகத்திற்கு அவை கிடைக்கச் செய்கின்றன.

தற்போதைய நிலை

Tucano மாதிரி தொடர் தற்போது காப்பகப்படுத்தப்பட்டுள்ளது (archived); அதாவது செயலில் உள்ள வளர்ச்சி முடிவடைந்துள்ளது. எடைகள் (weights), குறியீடு (code), மற்றும் தொடர்புடைய ஆவணங்கள் (documentation) ஆகியவை ஆராய்ச்சி சமூகத்தால் தொடர்ந்து குறிப்புக்காகவும் பயன்பாட்டுக்காகவும் திட்டத்தின் GitHub களஞ்சியத்தின் மூலம் பொதுவாக அணுகக்கூடியதாகவே உள்ளன. 2025 ஆம் ஆண்டில் Patterns இதழில் கண்டுபிடிப்புகள் வெளியிடப்பட்டிருப்பது, திட்டத்துடன் தொடர்புடைய முறையியல் (methodology), பயிற்சி தரவு (training data), மற்றும் மதிப்பீட்டு முடிவுகள் (evaluation results) ஆகியவற்றின் peer-reviewed பதிவை வழங்குகிறது; இதன் மூலம் மீளஉற்பத்தி (reproducibility) மற்றும் மேலதிக ஆய்வுகளுக்கு ஆதரவு கிடைக்கிறது.

அறிக்கை