Tucano

पृष्ठभूमि र विकास

Tucano पोर्चुगाली पाठमा विशेष रूपमा प्रशिक्षित ठूला-स्तरका भाषा मोडेलहरूको अभावलाई सम्बोधन गर्न समर्पित प्रयासका रूपमा ब्राजिलमा विकास गरिएको थियो। धेरैजसो प्रख्यात भाषा मोडेलहरू मुख्यतः अंग्रेजी-भाषाका सङ्ग्रह (corpora) मा प्रशिक्षित हुने भए पनि, ब्राजिल, पोर्चुगल र अन्य देशहरूभरि २५० मिलियनभन्दा बढी मानिसहरूले बोल्ने पोर्चुगालीले ऐतिहासिक रूपमा फाउन्डेसन मोडेल अनुसन्धानमा कम ध्यान पाएको छ। Tucano परियोजनाले ठूलो, उच्च-गुणस्तरको पोर्चुगाली डेटासेट प्रयोग गरेर सुरुदेखि नै ट्रान्सफर्मर-आधारित मोडेलहरू निर्माण गरी यो अन्तरलाई पूरा गर्ने लक्ष्य राखेको थियो।

मोडेलहरू GigaVerbo मा प्रि-ट्रेन गरिएका थिए, जुन करिब २०० अर्ब डिडुप्लिकेटेड पोर्चुगाली टोकनहरूको सङ्ग्रह हो र स्केलमा मजबुत भाषा मोडलिङलाई समर्थन गर्न तयार पारिएको थियो। यो परियोजना Tucano: Advancing Neural Text Generation for Portuguese शीर्षकको पेपरमा दस्तावेज गरिएको छ, जुन २०२५ मा Patterns जर्नलमा प्रकाशित भएको थियो, र सबै वेट्स तथा प्रशिक्षण कोड Apache 2.0 लाइसेन्स अन्तर्गत GitHub मा सार्वजनिक रूपमा उपलब्ध छन्।

मोडेल भेरियन्टहरू र फाइन-ट्युन गरिएका संस्करणहरू

Tucano परिवारले चारवटा आधारभूत मोडेल साइजहरू समेट्छ, जसले अनुसन्धानकर्ता र विकासकर्तालाई आफ्नो कम्प्युटेसनल सीमितता र कार्य आवश्यकताअनुसार उपयुक्त मोडेल छनोट गर्न सक्षम बनाउँछ:

Tucano-160m – १६० मिलियन प्यारामिटर
Tucano-630m – ६३० मिलियन प्यारामिटर
Tucano-1b1 – करिब १.१ बिलियन प्यारामिटर
Tucano-2b4 – करिब २.४ बिलियन प्यारामिटर

आधारभूत प्रि-ट्रेन गरिएका मोडेलहरूका अतिरिक्त, परियोजनाले केही फाइन-ट्युन गरिएका व्युत्पन्नहरू पनि उत्पादन गरेको थियो। Tucano-SFT र Tucano-DPO क्रमशः सुपरभाइज्ड फाइन-ट्युनिङ र प्रत्यक्ष प्राथमिकता अनुकूलन (direct preference optimization) भेरियन्टहरू हुन्, जबकि Tucano-2b4-Instruct सबैभन्दा ठूलो आधारभूत मोडेलको निर्देशन-अनुसरण गर्ने संस्करण हो। यी फाइन-ट्युन गरिएका संस्करणहरूले आधारभूत मोडेलहरूको उपयोगिता संवादात्मक र कार्य-केन्द्रित अनुप्रयोगतर्फ विस्तार गर्छन्।

सम्बन्धित मल्टिमोडल मोडेलहरू, ViTucano-1b5-v1 र ViTucano-2b8-v1, पनि ViTucano नामअन्तर्गत जारी गरिएका थिए, जसले पोर्चुगाली पाठ बुझाइसँगै दृश्य (visual) मोडालिटीहरू समावेश गर्ने डाउनस्ट्रीम कामको संकेत गर्छ।

प्रयोगका केसहरू र लक्षित श्रोता

Tucano मुख्यतः पोर्चुगाली भाषामा प्राकृतिक भाषा प्रशोधन (natural language processing) का कार्यहरूमा काम गर्ने अनुसन्धानकर्ता र विकासकर्तालाई लक्षित छ। सम्भावित प्रयोगका केसहरूमा पाठ उत्पादन, भाषा मोडलिङ बेन्चमार्कहरू, विशिष्ट डोमेनका पोर्चुगाली अनुप्रयोगहरूका लागि फाइन-ट्युनिङ, र कम स्रोत (lower-resource) भाषा परिवेशमा मोडेलको व्यवहार अध्ययन गर्न अनुसन्धानात्मक आधाररेखा (research baseline) का रूपमा प्रयोग समावेश छन्। धेरै मोडेल साइजहरूको उपलब्धताले सीमित हार्डवेयरमा शैक्षिक प्रयोगदेखि थप स्रोत-गहन (resource-intensive) लागू अनुसन्धानसम्म विभिन्न परिनियोजन परिदृश्यहरूलाई समर्थन गर्छ।

मोडेलहरू खुला वेट्ससहित उदार Apache 2.0 लाइसेन्स अन्तर्गत जारी गरिएकाले तिनलाई स्वतन्त्र रूपमा प्रयोग, परिमार्जन र पुनःवितरण गर्न सकिन्छ, जसले स्वामित्वयुक्त मोडेल API मा पहुँच नभएकाहरू समेत व्यापक समुदायका लागि तिनलाई उपलब्ध बनाउँछ।

हालको अवस्था

Tucano मोडेल शृङ्खला हाल अभिलेखीकृत (archived) अवस्थामा छ, अर्थात् सक्रिय विकास समाप्त भएको छ। वेट्स, कोड र सम्बन्धित दस्तावेज परियोजनाको GitHub भण्डार (repository) मार्फत सन्दर्भ र अनुसन्धान समुदायद्वारा निरन्तर प्रयोगका लागि सार्वजनिक रूपमा उपलब्ध नै छन्। २०२५ मा Patterns मा निष्कर्षहरूको प्रकाशनले परियोजनासँग सम्बन्धित कार्यविधि, प्रशिक्षण डेटा र मूल्याङ्कन परिणामहरूको peer-reviewed अभिलेख उपलब्ध गराउँछ, जसले पुनरुत्पादनयोग्यता (reproducibility) र थप अध्ययनलाई समर्थन गर्छ।

इनपुट

आउटपुट

वर्गहरू

थिमहरू

पृष्ठभूमि र विकास

मोडेल भेरियन्टहरू र फाइन-ट्युन गरिएका संस्करणहरू

प्रयोगका केसहरू र लक्षित श्रोता

हालको अवस्था