Tucano
इनपुट
आउटपुट
वर्गहरू
थिमहरू
Tucano ब्राजिलमा विकसित गरिएको खुला-तौल (open-weights) ट्रान्सफर्मर भाषा मोडेलहरूको एक परिवार हो, जसलाई पूर्ण रूपमा पोर्तुगाली-भाषाको पाठमा मात्र तालिम दिइएको छ। यी मोडेलहरू करिब २०० अर्ब डिडुप्लिकेट गरिएको पोर्तुगाली टोकनहरूको डेटा सेट GigaVerbo मा पूर्व-प्रशिक्षित गरिएका थिए, र १६० मिलियनदेखि २.४ अर्बसम्मका परिमाप (parameters) हुने चार आकारमा उपलब्ध छन्।
फाइन-ट्युन गरिएका भेरियन्टहरूमा निर्देशन-पालना (instruction-following) र प्राथमिकता-उत्कृष्ट (preference-optimized) संस्करणहरू समावेश छन्, र सम्बन्धित बहुविध (multimodal) व्युत्पन्नहरू ViTucano नामअन्तर्गत सार्वजनिक गरिएका छन्। Tucano पोर्तुगाली भाषामा प्राकृतिक भाषा प्रशोधन (natural language processing) कार्यहरूमा काम गर्ने अनुसन्धानकर्ता र विकासकर्ताहरूका लागि लक्षित छ—यो भाषा ऐतिहासिक रूपमा ठूला-स्तरका भाषा मोडेल विकासमा कम प्रतिनिधित्व भएको छ।
यो परियोजना Patterns जर्नलमा प्रकाशित २०२५ को एक पेपरमा दस्तावेजीकृत गरिएको छ र Apache 2.0 लाइसेन्सअन्तर्गत जारी गरिएको छ; तौल (weights) र कोड GitHub मा सार्वजनिक रूपमा उपलब्ध छन्। मोडेल शृङ्खला हाल अभिलेखीकृत (archived) गरिएको छ।
पृष्ठभूमि र विकास
Tucano पोर्चुगाली पाठमा विशेष रूपमा प्रशिक्षित ठूला-स्तरका भाषा मोडेलहरूको अभावलाई सम्बोधन गर्न समर्पित प्रयासका रूपमा ब्राजिलमा विकास गरिएको थियो। धेरैजसो प्रख्यात भाषा मोडेलहरू मुख्यतः अंग्रेजी-भाषाका सङ्ग्रह (corpora) मा प्रशिक्षित हुने भए पनि, ब्राजिल, पोर्चुगल र अन्य देशहरूभरि २५० मिलियनभन्दा बढी मानिसहरूले बोल्ने पोर्चुगालीले ऐतिहासिक रूपमा फाउन्डेसन मोडेल अनुसन्धानमा कम ध्यान पाएको छ। Tucano परियोजनाले ठूलो, उच्च-गुणस्तरको पोर्चुगाली डेटासेट प्रयोग गरेर सुरुदेखि नै ट्रान्सफर्मर-आधारित मोडेलहरू निर्माण गरी यो अन्तरलाई पूरा गर्ने लक्ष्य राखेको थियो।
मोडेलहरू GigaVerbo मा प्रि-ट्रेन गरिएका थिए, जुन करिब २०० अर्ब डिडुप्लिकेटेड पोर्चुगाली टोकनहरूको सङ्ग्रह हो र स्केलमा मजबुत भाषा मोडलिङलाई समर्थन गर्न तयार पारिएको थियो। यो परियोजना Tucano: Advancing Neural Text Generation for Portuguese शीर्षकको पेपरमा दस्तावेज गरिएको छ, जुन २०२५ मा Patterns जर्नलमा प्रकाशित भएको थियो, र सबै वेट्स तथा प्रशिक्षण कोड Apache 2.0 लाइसेन्स अन्तर्गत GitHub मा सार्वजनिक रूपमा उपलब्ध छन्।
मोडेल भेरियन्टहरू र फाइन-ट्युन गरिएका संस्करणहरू
Tucano परिवारले चारवटा आधारभूत मोडेल साइजहरू समेट्छ, जसले अनुसन्धानकर्ता र विकासकर्तालाई आफ्नो कम्प्युटेसनल सीमितता र कार्य आवश्यकताअनुसार उपयुक्त मोडेल छनोट गर्न सक्षम बनाउँछ:
- Tucano-160m – १६० मिलियन प्यारामिटर
- Tucano-630m – ६३० मिलियन प्यारामिटर
- Tucano-1b1 – करिब १.१ बिलियन प्यारामिटर
- Tucano-2b4 – करिब २.४ बिलियन प्यारामिटर
आधारभूत प्रि-ट्रेन गरिएका मोडेलहरूका अतिरिक्त, परियोजनाले केही फाइन-ट्युन गरिएका व्युत्पन्नहरू पनि उत्पादन गरेको थियो। Tucano-SFT र Tucano-DPO क्रमशः सुपरभाइज्ड फाइन-ट्युनिङ र प्रत्यक्ष प्राथमिकता अनुकूलन (direct preference optimization) भेरियन्टहरू हुन्, जबकि Tucano-2b4-Instruct सबैभन्दा ठूलो आधारभूत मोडेलको निर्देशन-अनुसरण गर्ने संस्करण हो। यी फाइन-ट्युन गरिएका संस्करणहरूले आधारभूत मोडेलहरूको उपयोगिता संवादात्मक र कार्य-केन्द्रित अनुप्रयोगतर्फ विस्तार गर्छन्।
सम्बन्धित मल्टिमोडल मोडेलहरू, ViTucano-1b5-v1 र ViTucano-2b8-v1, पनि ViTucano नामअन्तर्गत जारी गरिएका थिए, जसले पोर्चुगाली पाठ बुझाइसँगै दृश्य (visual) मोडालिटीहरू समावेश गर्ने डाउनस्ट्रीम कामको संकेत गर्छ।
प्रयोगका केसहरू र लक्षित श्रोता
Tucano मुख्यतः पोर्चुगाली भाषामा प्राकृतिक भाषा प्रशोधन (natural language processing) का कार्यहरूमा काम गर्ने अनुसन्धानकर्ता र विकासकर्तालाई लक्षित छ। सम्भावित प्रयोगका केसहरूमा पाठ उत्पादन, भाषा मोडलिङ बेन्चमार्कहरू, विशिष्ट डोमेनका पोर्चुगाली अनुप्रयोगहरूका लागि फाइन-ट्युनिङ, र कम स्रोत (lower-resource) भाषा परिवेशमा मोडेलको व्यवहार अध्ययन गर्न अनुसन्धानात्मक आधाररेखा (research baseline) का रूपमा प्रयोग समावेश छन्। धेरै मोडेल साइजहरूको उपलब्धताले सीमित हार्डवेयरमा शैक्षिक प्रयोगदेखि थप स्रोत-गहन (resource-intensive) लागू अनुसन्धानसम्म विभिन्न परिनियोजन परिदृश्यहरूलाई समर्थन गर्छ।
मोडेलहरू खुला वेट्ससहित उदार Apache 2.0 लाइसेन्स अन्तर्गत जारी गरिएकाले तिनलाई स्वतन्त्र रूपमा प्रयोग, परिमार्जन र पुनःवितरण गर्न सकिन्छ, जसले स्वामित्वयुक्त मोडेल API मा पहुँच नभएकाहरू समेत व्यापक समुदायका लागि तिनलाई उपलब्ध बनाउँछ।
हालको अवस्था
Tucano मोडेल शृङ्खला हाल अभिलेखीकृत (archived) अवस्थामा छ, अर्थात् सक्रिय विकास समाप्त भएको छ। वेट्स, कोड र सम्बन्धित दस्तावेज परियोजनाको GitHub भण्डार (repository) मार्फत सन्दर्भ र अनुसन्धान समुदायद्वारा निरन्तर प्रयोगका लागि सार्वजनिक रूपमा उपलब्ध नै छन्। २०२५ मा Patterns मा निष्कर्षहरूको प्रकाशनले परियोजनासँग सम्बन्धित कार्यविधि, प्रशिक्षण डेटा र मूल्याङ्कन परिणामहरूको peer-reviewed अभिलेख उपलब्ध गराउँछ, जसले पुनरुत्पादनयोग्यता (reproducibility) र थप अध्ययनलाई समर्थन गर्छ।