Tucano

Tło i rozwój

Tucano zostało opracowane w Brazylii jako celowe przedsięwzięcie mające na celu zaradzenie brakowi dużych modeli językowych trenowanych konkretnie na tekstach w języku portugalskim. Podczas gdy wiele znanych modeli językowych jest trenowanych głównie na korpusach anglojęzycznych, portugalski—używany przez ponad 250 milionów osób w Brazylii, Portugalii i innych krajach—historycznie otrzymywał mniej uwagi w badaniach nad modelami bazowymi. Projekt Tucano miał na celu wypełnienie tej luki poprzez zbudowanie modeli opartych na transformatorach od podstaw, z wykorzystaniem dużego, wysokiej jakości zbioru danych w języku portugalskim.

Modele zostały wstępnie wytrenowane na GigaVerbo, korpusie liczącym około 200 miliardów zduplikowanych tokenów w języku portugalskim, zebranych w celu zapewnienia solidnego modelowania języka na dużą skalę. Projekt jest opisany w pracy Tucano: Advancing Neural Text Generation for Portuguese, opublikowanej w czasopiśmie Patterns w 2025 roku, a wszystkie wagi oraz kod treningowy są publicznie dostępne na GitHubie na licencji Apache 2.0.

Warianty modelu i wersje dostrojone

Rodzina Tucano obejmuje cztery rozmiary bazowych modeli, umożliwiając badaczom i deweloperom wybór modelu odpowiedniego do ich ograniczeń obliczeniowych oraz wymagań zadań:

Tucano-160m – 160 milionów parametrów
Tucano-630m – 630 milionów parametrów
Tucano-1b1 – około 1,1 miliarda parametrów
Tucano-2b4 – około 2,4 miliarda parametrów

Oprócz bazowych modeli wstępnie wytrenowanych projekt wytworzył kilka pochodnych dostrojonych. Tucano-SFT i Tucano-DPO reprezentują odpowiednio warianty nadzorowanego dostrajania oraz bezpośredniej optymalizacji preferencji, natomiast Tucano-2b4-Instruct to wersja podążająca za instrukcjami największego modelu bazowego. Te wersje dostrojone rozszerzają użyteczność modeli bazowych w kierunku zastosowań konwersacyjnych i zorientowanych na zadania.

Powiązane modele multimodalne, ViTucano-1b5-v1 i ViTucano-2b8-v1, również zostały wydane pod nazwą ViTucano, co sugeruje prace następcze uwzględniające modalności wizualne obok rozumienia tekstu w języku portugalskim.

Zastosowania i docelowi odbiorcy

Tucano jest przede wszystkim skierowane do badaczy i deweloperów pracujących nad zadaniami przetwarzania języka naturalnego w języku portugalskim. Potencjalne zastosowania obejmują generowanie tekstu, benchmarki modelowania języka, dostrajanie pod kątem zastosowań w określonej dziedzinie w języku portugalskim oraz jako punkt odniesienia w badaniach nad zachowaniem modeli w warunkach języków o niższych zasobach. Dostępność wielu rozmiarów modeli wspiera różne scenariusze wdrożeniowe—od eksperymentów akademickich na ograniczonym sprzęcie po bardziej wymagające badania stosowane.

Ponieważ modele są udostępniane na liberalnej licencji Apache 2.0 z otwartymi wagami, można ich swobodnie używać, modyfikować i redystrybuować, dzięki czemu są dostępne dla szerokiej społeczności, także dla osób niemających dostępu do zastrzeżonych interfejsów API modeli.

Aktualny status

Seria modeli Tucano jest obecnie zarchiwizowana, co oznacza zakończenie aktywnego rozwoju. Wagi, kod oraz powiązana dokumentacja pozostają publicznie dostępne za pośrednictwem repozytorium GitHub projektu do celów odniesienia i dalszego wykorzystania przez społeczność badawczą. Publikacja wyników w Patterns w 2025 roku dostarcza recenzowanego zapisu metodologii, danych treningowych i wyników ewaluacji związanych z projektem, wspierając odtwarzalność i dalsze badania.

Wejście

Wyjście

Kategorie

Tematy

Tło i rozwój

Warianty modelu i wersje dostrojone

Zastosowania i docelowi odbiorcy

Aktualny status