Tucano

Context și dezvoltare

Tucano a fost dezvoltat în Brazilia ca un efort dedicat pentru a aborda lipsa modelelor lingvistice la scară mare antrenate în mod specific pe text în portugheză. Deși multe modele lingvistice proeminente sunt antrenate în principal pe corpusuri în limba engleză, portugheza—vorbită de peste 250 de milioane de oameni în Brazilia, Portugalia și în alte țări—a primit istoric mai puțină atenție în cercetarea modelelor fundamentale. Proiectul Tucano a urmărit să reducă acest decalaj prin construirea, de la zero, a unor modele bazate pe transformatoare, folosind un set de date mare și de înaltă calitate în portugheză.

Modelele au fost pre-antrenate pe GigaVerbo, un corpus de aproximativ 200 de miliarde de tokeni portughezi deduplicați, asamblat pentru a susține modelarea robustă a limbajului la scară. Proiectul este documentat în lucrarea Tucano: Advancing Neural Text Generation for Portuguese, publicată în revista Patterns în 2025, iar toate ponderile și codul de antrenare sunt disponibile public pe GitHub sub licența Apache 2.0.

Variante de model și versiuni fine-tunate

Familia Tucano cuprinde patru dimensiuni de modele de bază, permițând cercetătorilor și dezvoltatorilor să aleagă un model potrivit constrângerilor lor de calcul și cerințelor de sarcină:

Tucano-160m – 160 de milioane de parametri
Tucano-630m – 630 de milioane de parametri
Tucano-1b1 – aproximativ 1,1 miliarde de parametri
Tucano-2b4 – aproximativ 2,4 miliarde de parametri

În plus față de modelele pre-antrenate de bază, proiectul a produs mai multe derivate fine-tunate. Tucano-SFT și Tucano-DPO reprezintă variante de fine-tuning supravegheat și, respectiv, de optimizare directă a preferințelor, în timp ce Tucano-2b4-Instruct este o versiune care urmează instrucțiuni a celui mai mare model de bază. Aceste versiuni fine-tunate extind utilitatea modelelor de bază către aplicații conversaționale și orientate pe sarcini.

Au fost lansate și modele multimodale conexe, ViTucano-1b5-v1 și ViTucano-2b8-v1, sub numele ViTucano, sugerând o activitate ulterioară care integrează modalități vizuale alături de înțelegerea textului în portugheză.

Utilizări și public țintă

Tucano este destinat în principal cercetătorilor și dezvoltatorilor care lucrează la sarcini de procesare a limbajului natural în portugheză. Printre cazurile potențiale de utilizare se numără generarea de text, benchmark-uri de modelare a limbajului, fine-tuning pentru aplicații specifice domeniului în portugheză și, ca reper de cercetare, pentru studierea comportamentului modelelor în contexte cu resurse lingvistice mai limitate. Disponibilitatea mai multor dimensiuni de modele susține o gamă de scenarii de implementare, de la experimente academice pe hardware limitat până la cercetare aplicată mai intensă din punct de vedere al resurselor.

Deoarece modelele sunt lansate sub licența permisivă Apache 2.0, cu ponderi deschise, pot fi utilizate liber, modificate și redistribuite, ceea ce le face accesibile unei comunități largi, inclusiv celor care nu au acces la API-uri proprietare pentru modele.

Status curent

Seria de modele Tucano este în prezent arhivată, ceea ce înseamnă că dezvoltarea activă s-a încheiat. Ponderile, codul și documentația aferentă rămân disponibile public prin intermediul depozitului GitHub al proiectului, pentru referință și utilizare continuă de către comunitatea de cercetare. Publicarea rezultatelor în Patterns în 2025 oferă o evidență evaluată de colegi a metodologiei, a datelor de antrenare și a rezultatelor evaluării asociate proiectului, susținând reproductibilitatea și studiul ulterior.

Introducere

Ieșire

Categorii

Teme

Context și dezvoltare

Variante de model și versiuni fine-tunate

Utilizări și public țintă

Status curent