Tucano

Antecedentes e desenvolvemento

Tucano foi desenvolvido no Brasil como un esforzo dedicado para abordar a escaseza de modelos lingüísticos a gran escala adestrados especificamente con texto en portugués. Aínda que moitos dos modelos lingüísticos máis destacados se adestran predominantemente con corpora en inglés, o portugués—falado por máis de 250 millóns de persoas en Brasil, Portugal e outros países—históricamente recibiu menos atención na investigación de modelos fundacionais. O proxecto Tucano pretendía pechar esta fenda construíndo modelos baseados en transformadores desde cero, empregando un conxunto de datos grande e de alta calidade en portugués.

Os modelos foron pre-adestrados en GigaVerbo, un corpus de aproximadamente 200 mil millóns de tokens portugueses deduplicados, reunido para soportar un modelado robusto da linguaxe a escala. O proxecto está documentado no artigo Tucano: Advancing Neural Text Generation for Portuguese, publicado na revista Patterns en 2025, e todos os pesos e o código de adestramento están dispoñibles publicamente en GitHub baixo a licenza Apache 2.0.

Variantes do modelo e versións axustadas

A familia Tucano abrangue catro tamaños de modelo base, o que permite que investigadores e desenvolvedores elixan un modelo axeitado ás súas limitacións computacionais e aos requisitos das tarefas:

Tucano-160m – 160 millóns de parámetros
Tucano-630m – 630 millóns de parámetros
Tucano-1b1 – aproximadamente 1,1 mil millóns de parámetros
Tucano-2b4 – aproximadamente 2,4 mil millóns de parámetros

Ademais dos modelos base pre-adestrados, o proxecto produciu varias derivacións axustadas. Tucano-SFT e Tucano-DPO representan variantes de fine-tuning supervisado e de optimización directa de preferencias, respectivamente, mentres que Tucano-2b4-Instruct é unha versión orientada a seguir instrucións do modelo base máis grande. Estas versións axustadas amplían a utilidade dos modelos base cara a aplicacións conversacionais e orientadas a tarefas.

Tamén se publicaron modelos multimodais relacionados, ViTucano-1b5-v1 e ViTucano-2b8-v1, baixo o nome ViTucano, o que suxire traballos posteriores que incorporan modalidades visuais xunto coa comprensión de texto en portugués.

Casos de uso e público destinatario

Tucano está dirixido principalmente a investigadores e desenvolvedores que traballan en tarefas de procesamento de linguaxe natural en portugués. Os posibles casos de uso inclúen xeración de texto, benchmarks de modelado da linguaxe, fine-tuning para aplicacións en portugués específicas do dominio e, como base de investigación, para estudar o comportamento dos modelos en contextos de linguas con menos recursos. A dispoñibilidade de varios tamaños de modelo admite unha variedade de escenarios de implantación, desde experimentación académica en hardware limitado ata investigación aplicada máis esixente en recursos.

Como os modelos se publican baixo a permisiva licenza Apache 2.0 con pesos abertos, pódense usar libremente, modificar e redistribuír, facendoos accesibles a unha comunidade ampla, incluídas persoas que non teñen acceso a APIs propietarias de modelos.

Estado actual

A serie de modelos Tucano está actualmente arquivada, o que significa que o desenvolvemento activo concluíu. Os pesos, o código e a documentación asociada seguen estando dispoñibles publicamente a través do repositorio GitHub do proxecto para referencia e uso continuado pola comunidade investigadora. A publicación dos resultados en Patterns en 2025 ofrece un rexistro revisado por pares da metodoloxía, os datos de adestramento e os resultados de avaliación asociados ao proxecto, apoiando a reproducibilidade e o estudo posterior.

Entrada

Saída

Categorías

Temas

Antecedentes e desenvolvemento

Variantes do modelo e versións axustadas

Casos de uso e público destinatario

Estado actual