Tucano
Entrada
Sortida
Categories
Temes
Tucano és una família de models de llenguatge transformadors de pesos oberts desenvolupats al Brasil i entrenats exclusivament amb text en llengua portuguesa. Els models es van preentrenar amb GigaVerbo, un conjunt de dades d’aproximadament 200 mil milions de tokens portuguesos deduplicats, i estan disponibles en quatre mides, que van dels 160 milions als 2,4 mil milions de paràmetres.
Les variants ajustades inclouen versions que segueixen instruccions i versions optimitzades per preferències, i es van publicar derivats multimodals relacionats sota el nom ViTucano. Tucano està pensat per a investigadors i desenvolupadors que treballen en tasques de processament del llenguatge natural en portuguès, una llengua que històricament ha estat poc representada en el desenvolupament de models de llenguatge a gran escala.
El projecte està documentat en un article de 2025 publicat a la revista Patterns i es publica sota la llicència Apache 2.0, amb pesos i codi disponibles públicament a GitHub. La sèrie de models actualment està arxivada.
Antecedents i desenvolupament
Tucano es va desenvolupar al Brasil com un esforç dedicat per abordar la manca de models lingüístics a gran escala entrenats específicament amb text en portuguès. Tot i que molts models lingüístics destacats s’entrenen predominantment amb corpus en anglès, el portuguès—parlat per més de 250 milions de persones al Brasil, Portugal i altres països—històricament ha rebut menys atenció en la recerca de models fundacionals. El projecte Tucano pretenia tancar aquesta bretxa construint models basats en transformers des de zero mitjançant un conjunt de dades gran i d’alta qualitat en portuguès.
Els models es van preentrenar amb GigaVerbo, un corpus d’aproximadament 200 mil milions de tokens portuguesos deduplicats, reunit per donar suport a un modelatge lingüístic robust a escala. El projecte es documenta a l’article Tucano: Advancing Neural Text Generation for Portuguese, publicat a la revista Patterns el 2025, i tots els pesos i el codi d’entrenament estan disponibles públicament a GitHub sota la llicència Apache 2.0.
Variants del model i versions ajustades
La família Tucano abasta quatre mides base de model, cosa que permet als investigadors i desenvolupadors triar un model adequat a les seves limitacions computacionals i als requisits de la tasca:
- Tucano-160m – 160 milions de paràmetres
- Tucano-630m – 630 milions de paràmetres
- Tucano-1b1 – aproximadament 1,1 mil milions de paràmetres
- Tucano-2b4 – aproximadament 2,4 mil milions de paràmetres
A més dels models base preentrenats, el projecte va produir diversos derivats ajustats. Tucano-SFT i Tucano-DPO representen variants d’ajustament supervisat i d’optimització directa de preferències, respectivament, mentre que Tucano-2b4-Instruct és una versió que segueix instruccions del model base més gran. Aquestes versions ajustades amplien l’utilitat dels models base cap a aplicacions conversacionals i orientades a tasques.
També es van publicar models multimodals relacionats, ViTucano-1b5-v1 i ViTucano-2b8-v1, sota el nom ViTucano, cosa que suggereix treball posterior que incorpora modalitats visuals juntament amb la comprensió de text en portuguès.
Casos d’ús i públic destinat
Tucano s’adreça principalment a investigadors i desenvolupadors que treballen en tasques de processament del llenguatge natural en portuguès. Els casos d’ús potencials inclouen generació de text, benchmarks de modelatge lingüístic, ajustament per a aplicacions específiques en portuguès i com a base de recerca per estudiar el comportament del model en entorns lingüístics de menys recursos. La disponibilitat de diverses mides de model admet una gamma de escenaris de desplegament, des de l’experimentació acadèmica amb maquinari limitat fins a recerca aplicada més exigent en recursos.
Com que els models es publiquen sota la permissiva llicència Apache 2.0 amb pesos oberts, es poden utilitzar lliurement, modificar i redistribuir, cosa que els fa accessibles a una comunitat àmplia, incloent-hi persones que no tenen accés a interfícies de programació d’aplicacions de models propietaris.
Estat actual
La sèrie de models Tucano està actualment arxivada, és a dir, s’ha conclòs el desenvolupament actiu. Els pesos, el codi i la documentació associada continuen sent accessibles públicament a través del repositori de GitHub del projecte per a la seva consulta i ús continuat per part de la comunitat de recerca. La publicació dels resultats a Patterns el 2025 proporciona un registre revisat per parells de la metodologia, les dades d’entrenament i els resultats d’avaluació associats al projecte, donant suport a la reproducibilitat i a estudis posteriors.