Transformer Apache 2.0 Yes
Português

Entrada

text

Saída

text

Temas

generative ainlpresearch

Tucano é unha familia de modelos de linguaxe transformadores de pesos abertos desenvolvida en Brasil e adestrada exclusivamente con texto en portugués. Os modelos foron preadestrados en GigaVerbo, un conxunto de datos de aproximadamente 200 mil millóns de tokens portugueses deduplicados, e están dispoñibles en catro tamaños, que van desde 160 millóns ata 2,4 mil millóns de parámetros.

As variantes axustadas inclúen versións para seguir instrucións e versións optimizadas por preferencia, e dérivados multimodais relacionados foron publicados baixo o nome ViTucano. Tucano está pensado para investigadores e desenvolvedores que traballan en tarefas de procesamento de linguaxe natural en portugués, unha lingua que historicamente estivo pouco representada no desenvolvemento de modelos de linguaxe a gran escala.

O proxecto está documentado nun artigo de 2025 publicado na revista Patterns e publícase baixo a licenza Apache 2.0, con pesos e código dispoñibles publicamente en GitHub. A serie de modelos está actualmente arquivada.

Antecedentes e desenvolvemento

Tucano foi desenvolvido no Brasil como un esforzo dedicado para abordar a escaseza de modelos lingüísticos a gran escala adestrados especificamente con texto en portugués. Aínda que moitos dos modelos lingüísticos máis destacados se adestran predominantemente con corpora en inglés, o portugués—falado por máis de 250 millóns de persoas en Brasil, Portugal e outros países—históricamente recibiu menos atención na investigación de modelos fundacionais. O proxecto Tucano pretendía pechar esta fenda construíndo modelos baseados en transformadores desde cero, empregando un conxunto de datos grande e de alta calidade en portugués.

Os modelos foron pre-adestrados en GigaVerbo, un corpus de aproximadamente 200 mil millóns de tokens portugueses deduplicados, reunido para soportar un modelado robusto da linguaxe a escala. O proxecto está documentado no artigo Tucano: Advancing Neural Text Generation for Portuguese, publicado na revista Patterns en 2025, e todos os pesos e o código de adestramento están dispoñibles publicamente en GitHub baixo a licenza Apache 2.0.

Variantes do modelo e versións axustadas

A familia Tucano abrangue catro tamaños de modelo base, o que permite que investigadores e desenvolvedores elixan un modelo axeitado ás súas limitacións computacionais e aos requisitos das tarefas:

  • Tucano-160m – 160 millóns de parámetros
  • Tucano-630m – 630 millóns de parámetros
  • Tucano-1b1 – aproximadamente 1,1 mil millóns de parámetros
  • Tucano-2b4 – aproximadamente 2,4 mil millóns de parámetros

Ademais dos modelos base pre-adestrados, o proxecto produciu varias derivacións axustadas. Tucano-SFT e Tucano-DPO representan variantes de fine-tuning supervisado e de optimización directa de preferencias, respectivamente, mentres que Tucano-2b4-Instruct é unha versión orientada a seguir instrucións do modelo base máis grande. Estas versións axustadas amplían a utilidade dos modelos base cara a aplicacións conversacionais e orientadas a tarefas.

Tamén se publicaron modelos multimodais relacionados, ViTucano-1b5-v1 e ViTucano-2b8-v1, baixo o nome ViTucano, o que suxire traballos posteriores que incorporan modalidades visuais xunto coa comprensión de texto en portugués.

Casos de uso e público destinatario

Tucano está dirixido principalmente a investigadores e desenvolvedores que traballan en tarefas de procesamento de linguaxe natural en portugués. Os posibles casos de uso inclúen xeración de texto, benchmarks de modelado da linguaxe, fine-tuning para aplicacións en portugués específicas do dominio e, como base de investigación, para estudar o comportamento dos modelos en contextos de linguas con menos recursos. A dispoñibilidade de varios tamaños de modelo admite unha variedade de escenarios de implantación, desde experimentación académica en hardware limitado ata investigación aplicada máis esixente en recursos.

Como os modelos se publican baixo a permisiva licenza Apache 2.0 con pesos abertos, pódense usar libremente, modificar e redistribuír, facendoos accesibles a unha comunidade ampla, incluídas persoas que non teñen acceso a APIs propietarias de modelos.

Estado actual

A serie de modelos Tucano está actualmente arquivada, o que significa que o desenvolvemento activo concluíu. Os pesos, o código e a documentación asociada seguen estando dispoñibles publicamente a través do repositorio GitHub do proxecto para referencia e uso continuado pola comunidade investigadora. A publicación dos resultados en Patterns en 2025 ofrece un rexistro revisado por pares da metodoloxía, os datos de adestramento e os resultados de avaliación asociados ao proxecto, apoiando a reproducibilidade e o estudo posterior.

Informe