Tucano

Antecedents i desenvolupament

Tucano es va desenvolupar al Brasil com un esforç dedicat per abordar la manca de models lingüístics a gran escala entrenats específicament amb text en portuguès. Tot i que molts models lingüístics destacats s’entrenen predominantment amb corpus en anglès, el portuguès—parlat per més de 250 milions de persones al Brasil, Portugal i altres països—històricament ha rebut menys atenció en la recerca de models fundacionals. El projecte Tucano pretenia tancar aquesta bretxa construint models basats en transformers des de zero mitjançant un conjunt de dades gran i d’alta qualitat en portuguès.

Els models es van preentrenar amb GigaVerbo, un corpus d’aproximadament 200 mil milions de tokens portuguesos deduplicats, reunit per donar suport a un modelatge lingüístic robust a escala. El projecte es documenta a l’article Tucano: Advancing Neural Text Generation for Portuguese, publicat a la revista Patterns el 2025, i tots els pesos i el codi d’entrenament estan disponibles públicament a GitHub sota la llicència Apache 2.0.

Variants del model i versions ajustades

La família Tucano abasta quatre mides base de model, cosa que permet als investigadors i desenvolupadors triar un model adequat a les seves limitacions computacionals i als requisits de la tasca:

Tucano-160m – 160 milions de paràmetres
Tucano-630m – 630 milions de paràmetres
Tucano-1b1 – aproximadament 1,1 mil milions de paràmetres
Tucano-2b4 – aproximadament 2,4 mil milions de paràmetres

A més dels models base preentrenats, el projecte va produir diversos derivats ajustats. Tucano-SFT i Tucano-DPO representen variants d’ajustament supervisat i d’optimització directa de preferències, respectivament, mentre que Tucano-2b4-Instruct és una versió que segueix instruccions del model base més gran. Aquestes versions ajustades amplien l’utilitat dels models base cap a aplicacions conversacionals i orientades a tasques.

També es van publicar models multimodals relacionats, ViTucano-1b5-v1 i ViTucano-2b8-v1, sota el nom ViTucano, cosa que suggereix treball posterior que incorpora modalitats visuals juntament amb la comprensió de text en portuguès.

Casos d’ús i públic destinat

Tucano s’adreça principalment a investigadors i desenvolupadors que treballen en tasques de processament del llenguatge natural en portuguès. Els casos d’ús potencials inclouen generació de text, benchmarks de modelatge lingüístic, ajustament per a aplicacions específiques en portuguès i com a base de recerca per estudiar el comportament del model en entorns lingüístics de menys recursos. La disponibilitat de diverses mides de model admet una gamma de escenaris de desplegament, des de l’experimentació acadèmica amb maquinari limitat fins a recerca aplicada més exigent en recursos.

Com que els models es publiquen sota la permissiva llicència Apache 2.0 amb pesos oberts, es poden utilitzar lliurement, modificar i redistribuir, cosa que els fa accessibles a una comunitat àmplia, incloent-hi persones que no tenen accés a interfícies de programació d’aplicacions de models propietaris.

Estat actual

La sèrie de models Tucano està actualment arxivada, és a dir, s’ha conclòs el desenvolupament actiu. Els pesos, el codi i la documentació associada continuen sent accessibles públicament a través del repositori de GitHub del projecte per a la seva consulta i ús continuat per part de la comunitat de recerca. La publicació dels resultats a Patterns el 2025 proporciona un registre revisat per parells de la metodologia, les dades d’entrenament i els resultats d’avaluació associats al projecte, donant suport a la reproducibilitat i a estudis posteriors.

Entrada

Sortida

Categories

Temes

Antecedents i desenvolupament

Variants del model i versions ajustades

Casos d’ús i públic destinat

Estat actual