Tucano

पृष्ठभूमि और विकास

Tucano को ब्राज़ील में विशेष रूप से पुर्तगाली पाठ पर प्रशिक्षित बड़े पैमाने के भाषा मॉडलों की कमी को दूर करने के लिए एक समर्पित प्रयास के रूप में विकसित किया गया था। जबकि कई प्रमुख भाषा मॉडल मुख्यतः अंग्रेज़ी-भाषा के कॉर्पस पर प्रशिक्षित किए जाते हैं, पुर्तगाली—जिसे ब्राज़ील, पुर्तगाल और अन्य देशों में 250 मिलियन से अधिक लोग बोलते हैं—को ऐतिहासिक रूप से फाउंडेशन मॉडल शोध में अपेक्षाकृत कम ध्यान मिला है। Tucano परियोजना का लक्ष्य बड़े, उच्च-गुणवत्ता वाले पुर्तगाली डेटासेट का उपयोग करके शुरू से ही ट्रांसफॉर्मर-आधारित मॉडल बनाकर इस अंतर को पाटना था।

मॉडलों को GigaVerbo पर प्री-ट्रेन किया गया, जो लगभग 200 बिलियन डिडुप्लिकेटेड पुर्तगाली टोकनों का एक कॉर्पस है, जिसे स्केल पर मज़बूत भाषा मॉडलिंग को समर्थन देने के लिए संकलित किया गया था। यह परियोजना पेपर Tucano: Advancing Neural Text Generation for Portuguese में प्रलेखित है, जो 2025 में जर्नल Patterns में प्रकाशित हुआ, और सभी वज़न तथा प्रशिक्षण कोड Apache 2.0 लाइसेंस के तहत GitHub पर सार्वजनिक रूप से उपलब्ध हैं।

मॉडल वेरिएंट और फाइन-ट्यून किए गए संस्करण

Tucano परिवार चार आधार मॉडल आकारों को शामिल करता है, जिससे शोधकर्ता और डेवलपर अपनी कम्प्यूटेशनल सीमाओं और कार्य आवश्यकताओं के अनुसार उपयुक्त मॉडल चुन सकते हैं:

Tucano-160m – 160 मिलियन पैरामीटर
Tucano-630m – 630 मिलियन पैरामीटर
Tucano-1b1 – लगभग 1.1 बिलियन पैरामीटर
Tucano-2b4 – लगभग 2.4 बिलियन पैरामीटर

आधार प्री-ट्रेंड मॉडलों के अलावा, परियोजना ने कई फाइन-ट्यून किए गए व्युत्पन्न भी तैयार किए। Tucano-SFT और Tucano-DPO क्रमशः सुपरवाइज़्ड फाइन-ट्यूनिंग और डायरेक्ट प्रेफरेंस ऑप्टिमाइज़ेशन वेरिएंट को दर्शाते हैं, जबकि Tucano-2b4-Instruct सबसे बड़े आधार मॉडल का एक निर्देश-पालन (instruction-following) संस्करण है। ये फाइन-ट्यून किए गए संस्करण आधार मॉडलों की उपयोगिता को संवादात्मक और कार्य-उन्मुख अनुप्रयोगों की ओर विस्तारित करते हैं।

संबंधित मल्टीमोडल मॉडलों, ViTucano-1b5-v1 और ViTucano-2b8-v1, को भी ViTucano नाम के अंतर्गत जारी किया गया, जो पुर्तगाली पाठ समझ के साथ दृश्य (visual) तौर-तरीकों को शामिल करने वाले डाउनस्ट्रीम कार्य का संकेत देता है।

उपयोग के मामले और लक्षित दर्शक

Tucano मुख्यतः उन शोधकर्ताओं और डेवलपर्स के लिए लक्षित है जो पुर्तगाली में प्राकृतिक भाषा प्रसंस्करण (natural language processing) कार्यों पर काम कर रहे हैं। संभावित उपयोग के मामलों में पाठ निर्माण (text generation), भाषा मॉडलिंग बेंचमार्क, डोमेन-विशिष्ट पुर्तगाली अनुप्रयोगों के लिए फाइन-ट्यूनिंग, और कम-संसाधन (lower-resource) भाषा परिवेशों में मॉडल व्यवहार का अध्ययन करने के लिए एक शोध-आधार (research baseline) शामिल हैं। कई मॉडल आकारों की उपलब्धता सीमित हार्डवेयर पर अकादमिक प्रयोग से लेकर अधिक संसाधन-गहन अनुप्रयुक्त शोध तक, तैनाती (deployment) के विभिन्न परिदृश्यों का समर्थन करती है।

क्योंकि मॉडल खुले वज़न (open weights) के साथ उदार Apache 2.0 लाइसेंस के तहत जारी किए गए हैं, इन्हें स्वतंत्र रूप से उपयोग, संशोधित और पुनर्वितरित किया जा सकता है, जिससे वे एक व्यापक समुदाय के लिए सुलभ बनते हैं, जिनमें वे लोग भी शामिल हैं जिनके पास स्वामित्व (proprietary) मॉडल API तक पहुंच नहीं है।

वर्तमान स्थिति

Tucano मॉडल श्रृंखला वर्तमान में आर्काइव (archived) की गई है, जिसका अर्थ है कि सक्रिय विकास समाप्त हो चुका है। वज़न, कोड और संबंधित प्रलेखन परियोजना के GitHub रिपॉज़िटरी के माध्यम से संदर्भ और शोध समुदाय द्वारा निरंतर उपयोग के लिए सार्वजनिक रूप से उपलब्ध रहते हैं। 2025 में Patterns में निष्कर्षों का प्रकाशन परियोजना से संबंधित कार्यप्रणाली, प्रशिक्षण डेटा और मूल्यांकन परिणामों का एक सहकर्मी-समीक्षित (peer-reviewed) रिकॉर्ड प्रदान करता है, जो पुनरुत्पादन (reproducibility) और आगे के अध्ययन को समर्थन देता है।

इनपुट

आउटपुट

श्रेणियाँ

थीम्स

पृष्ठभूमि और विकास

मॉडल वेरिएंट और फाइन-ट्यून किए गए संस्करण

उपयोग के मामले और लक्षित दर्शक

वर्तमान स्थिति