Tucano
Introducere
Ieșire
Categorii
Teme
Tucano este o familie de modele lingvistice de tip transformer cu greutăți deschise, dezvoltate în Brazilia și antrenate exclusiv pe text în limba portugheză. Modelele au fost preantrenate pe GigaVerbo, un set de date format din aproximativ 200 de miliarde de tokenuri portugheze deduplicate, și sunt disponibile în patru dimensiuni, de la 160 de milioane la 2,4 miliarde de parametri.
Versiunile ajustate fin includ variante pentru urmarea instrucțiunilor și versiuni optimizate pentru preferințe, iar derivate multimodale aferente au fost lansate sub numele ViTucano. Tucano este destinat cercetătorilor și dezvoltatorilor care lucrează la sarcini de procesare a limbajului natural în limba portugheză, o limbă care a fost, istoric, subreprezentată în dezvoltarea modelelor lingvistice la scară largă.
Proiectul este documentat într-o lucrare din 2025 publicată în revista Patterns și este lansat sub licența Apache 2.0, cu greutăți și cod disponibile public pe GitHub. Seria de modele este în prezent arhivată.
Context și dezvoltare
Tucano a fost dezvoltat în Brazilia ca un efort dedicat pentru a aborda lipsa modelelor lingvistice la scară mare antrenate în mod specific pe text în portugheză. Deși multe modele lingvistice proeminente sunt antrenate în principal pe corpusuri în limba engleză, portugheza—vorbită de peste 250 de milioane de oameni în Brazilia, Portugalia și în alte țări—a primit istoric mai puțină atenție în cercetarea modelelor fundamentale. Proiectul Tucano a urmărit să reducă acest decalaj prin construirea, de la zero, a unor modele bazate pe transformatoare, folosind un set de date mare și de înaltă calitate în portugheză.
Modelele au fost pre-antrenate pe GigaVerbo, un corpus de aproximativ 200 de miliarde de tokeni portughezi deduplicați, asamblat pentru a susține modelarea robustă a limbajului la scară. Proiectul este documentat în lucrarea Tucano: Advancing Neural Text Generation for Portuguese, publicată în revista Patterns în 2025, iar toate ponderile și codul de antrenare sunt disponibile public pe GitHub sub licența Apache 2.0.
Variante de model și versiuni fine-tunate
Familia Tucano cuprinde patru dimensiuni de modele de bază, permițând cercetătorilor și dezvoltatorilor să aleagă un model potrivit constrângerilor lor de calcul și cerințelor de sarcină:
- Tucano-160m – 160 de milioane de parametri
- Tucano-630m – 630 de milioane de parametri
- Tucano-1b1 – aproximativ 1,1 miliarde de parametri
- Tucano-2b4 – aproximativ 2,4 miliarde de parametri
În plus față de modelele pre-antrenate de bază, proiectul a produs mai multe derivate fine-tunate. Tucano-SFT și Tucano-DPO reprezintă variante de fine-tuning supravegheat și, respectiv, de optimizare directă a preferințelor, în timp ce Tucano-2b4-Instruct este o versiune care urmează instrucțiuni a celui mai mare model de bază. Aceste versiuni fine-tunate extind utilitatea modelelor de bază către aplicații conversaționale și orientate pe sarcini.
Au fost lansate și modele multimodale conexe, ViTucano-1b5-v1 și ViTucano-2b8-v1, sub numele ViTucano, sugerând o activitate ulterioară care integrează modalități vizuale alături de înțelegerea textului în portugheză.
Utilizări și public țintă
Tucano este destinat în principal cercetătorilor și dezvoltatorilor care lucrează la sarcini de procesare a limbajului natural în portugheză. Printre cazurile potențiale de utilizare se numără generarea de text, benchmark-uri de modelare a limbajului, fine-tuning pentru aplicații specifice domeniului în portugheză și, ca reper de cercetare, pentru studierea comportamentului modelelor în contexte cu resurse lingvistice mai limitate. Disponibilitatea mai multor dimensiuni de modele susține o gamă de scenarii de implementare, de la experimente academice pe hardware limitat până la cercetare aplicată mai intensă din punct de vedere al resurselor.
Deoarece modelele sunt lansate sub licența permisivă Apache 2.0, cu ponderi deschise, pot fi utilizate liber, modificate și redistribuite, ceea ce le face accesibile unei comunități largi, inclusiv celor care nu au acces la API-uri proprietare pentru modele.
Status curent
Seria de modele Tucano este în prezent arhivată, ceea ce înseamnă că dezvoltarea activă s-a încheiat. Ponderile, codul și documentația aferentă rămân disponibile public prin intermediul depozitului GitHub al proiectului, pentru referință și utilizare continuă de către comunitatea de cercetare. Publicarea rezultatelor în Patterns în 2025 oferă o evidență evaluată de colegi a metodologiei, a datelor de antrenare și a rezultatelor evaluării asociate proiectului, susținând reproductibilitatea și studiul ulterior.