Tucano
इनपुट
आउटपुट
श्रेणियाँ
थीम्स
Tucano खुले-वज़न वाले transformer भाषा मॉडलों का एक परिवार है, जिसे Brazil में विकसित किया गया है और जिसे विशेष रूप से Portuguese-भाषा के पाठ पर प्रशिक्षित किया गया है। इन मॉडलों को GigaVerbo पर पूर्व-प्रशिक्षित किया गया था, जो लगभग 200 अरब डुप्लिकेट-रहित Portuguese टोकनों का एक डेटासेट है, और ये चार आकारों में उपलब्ध हैं, जिनका दायरा 160 मिलियन से 2.4 अरब parameters तक है।
फाइन-ट्यून किए गए संस्करणों में instruction-following और preference-optimized रूप शामिल हैं, और संबंधित multimodal derivatives को ViTucano नाम के अंतर्गत जारी किया गया था। Tucano का उद्देश्य उन researchers और developers के लिए है जो Portuguese में natural language processing कार्यों पर काम कर रहे हैं, जो एक ऐसी भाषा है जिसे ऐतिहासिक रूप से बड़े पैमाने के भाषा मॉडल विकास में कम प्रतिनिधित्व मिला है।
इस परियोजना का दस्तावेज़ीकरण 2025 के एक शोध-पत्र में किया गया है, जो Patterns पत्रिका में प्रकाशित हुआ था, और इसे Apache 2.0 license के अंतर्गत जारी किया गया है; इसके weights और code GitHub पर सार्वजनिक रूप से उपलब्ध हैं। मॉडल श्रृंखला वर्तमान में archived है।
पृष्ठभूमि और विकास
Tucano को ब्राज़ील में विशेष रूप से पुर्तगाली पाठ पर प्रशिक्षित बड़े पैमाने के भाषा मॉडलों की कमी को दूर करने के लिए एक समर्पित प्रयास के रूप में विकसित किया गया था। जबकि कई प्रमुख भाषा मॉडल मुख्यतः अंग्रेज़ी-भाषा के कॉर्पस पर प्रशिक्षित किए जाते हैं, पुर्तगाली—जिसे ब्राज़ील, पुर्तगाल और अन्य देशों में 250 मिलियन से अधिक लोग बोलते हैं—को ऐतिहासिक रूप से फाउंडेशन मॉडल शोध में अपेक्षाकृत कम ध्यान मिला है। Tucano परियोजना का लक्ष्य बड़े, उच्च-गुणवत्ता वाले पुर्तगाली डेटासेट का उपयोग करके शुरू से ही ट्रांसफॉर्मर-आधारित मॉडल बनाकर इस अंतर को पाटना था।
मॉडलों को GigaVerbo पर प्री-ट्रेन किया गया, जो लगभग 200 बिलियन डिडुप्लिकेटेड पुर्तगाली टोकनों का एक कॉर्पस है, जिसे स्केल पर मज़बूत भाषा मॉडलिंग को समर्थन देने के लिए संकलित किया गया था। यह परियोजना पेपर Tucano: Advancing Neural Text Generation for Portuguese में प्रलेखित है, जो 2025 में जर्नल Patterns में प्रकाशित हुआ, और सभी वज़न तथा प्रशिक्षण कोड Apache 2.0 लाइसेंस के तहत GitHub पर सार्वजनिक रूप से उपलब्ध हैं।
मॉडल वेरिएंट और फाइन-ट्यून किए गए संस्करण
Tucano परिवार चार आधार मॉडल आकारों को शामिल करता है, जिससे शोधकर्ता और डेवलपर अपनी कम्प्यूटेशनल सीमाओं और कार्य आवश्यकताओं के अनुसार उपयुक्त मॉडल चुन सकते हैं:
- Tucano-160m – 160 मिलियन पैरामीटर
- Tucano-630m – 630 मिलियन पैरामीटर
- Tucano-1b1 – लगभग 1.1 बिलियन पैरामीटर
- Tucano-2b4 – लगभग 2.4 बिलियन पैरामीटर
आधार प्री-ट्रेंड मॉडलों के अलावा, परियोजना ने कई फाइन-ट्यून किए गए व्युत्पन्न भी तैयार किए। Tucano-SFT और Tucano-DPO क्रमशः सुपरवाइज़्ड फाइन-ट्यूनिंग और डायरेक्ट प्रेफरेंस ऑप्टिमाइज़ेशन वेरिएंट को दर्शाते हैं, जबकि Tucano-2b4-Instruct सबसे बड़े आधार मॉडल का एक निर्देश-पालन (instruction-following) संस्करण है। ये फाइन-ट्यून किए गए संस्करण आधार मॉडलों की उपयोगिता को संवादात्मक और कार्य-उन्मुख अनुप्रयोगों की ओर विस्तारित करते हैं।
संबंधित मल्टीमोडल मॉडलों, ViTucano-1b5-v1 और ViTucano-2b8-v1, को भी ViTucano नाम के अंतर्गत जारी किया गया, जो पुर्तगाली पाठ समझ के साथ दृश्य (visual) तौर-तरीकों को शामिल करने वाले डाउनस्ट्रीम कार्य का संकेत देता है।
उपयोग के मामले और लक्षित दर्शक
Tucano मुख्यतः उन शोधकर्ताओं और डेवलपर्स के लिए लक्षित है जो पुर्तगाली में प्राकृतिक भाषा प्रसंस्करण (natural language processing) कार्यों पर काम कर रहे हैं। संभावित उपयोग के मामलों में पाठ निर्माण (text generation), भाषा मॉडलिंग बेंचमार्क, डोमेन-विशिष्ट पुर्तगाली अनुप्रयोगों के लिए फाइन-ट्यूनिंग, और कम-संसाधन (lower-resource) भाषा परिवेशों में मॉडल व्यवहार का अध्ययन करने के लिए एक शोध-आधार (research baseline) शामिल हैं। कई मॉडल आकारों की उपलब्धता सीमित हार्डवेयर पर अकादमिक प्रयोग से लेकर अधिक संसाधन-गहन अनुप्रयुक्त शोध तक, तैनाती (deployment) के विभिन्न परिदृश्यों का समर्थन करती है।
क्योंकि मॉडल खुले वज़न (open weights) के साथ उदार Apache 2.0 लाइसेंस के तहत जारी किए गए हैं, इन्हें स्वतंत्र रूप से उपयोग, संशोधित और पुनर्वितरित किया जा सकता है, जिससे वे एक व्यापक समुदाय के लिए सुलभ बनते हैं, जिनमें वे लोग भी शामिल हैं जिनके पास स्वामित्व (proprietary) मॉडल API तक पहुंच नहीं है।
वर्तमान स्थिति
Tucano मॉडल श्रृंखला वर्तमान में आर्काइव (archived) की गई है, जिसका अर्थ है कि सक्रिय विकास समाप्त हो चुका है। वज़न, कोड और संबंधित प्रलेखन परियोजना के GitHub रिपॉज़िटरी के माध्यम से संदर्भ और शोध समुदाय द्वारा निरंतर उपयोग के लिए सार्वजनिक रूप से उपलब्ध रहते हैं। 2025 में Patterns में निष्कर्षों का प्रकाशन परियोजना से संबंधित कार्यप्रणाली, प्रशिक्षण डेटा और मूल्यांकन परिणामों का एक सहकर्मी-समीक्षित (peer-reviewed) रिकॉर्ड प्रदान करता है, जो पुनरुत्पादन (reproducibility) और आगे के अध्ययन को समर्थन देता है।