Transformer Apache 2.0 Yes
Português

Entrada

text

Saída

text

Temas

generative ainlpresearch

Tucano é uma família de modelos de linguagem baseados em arquitetura transformer, desenvolvida no Brasil e treinada exclusivamente em português sobre o corpus GigaVerbo, composto por 200 bilhões de tokens de texto em português deduplicado. O projeto disponibilizou variantes com diferentes tamanhos de parâmetros — 160 milhões, 630 milhões, 1,1 bilhão e 2,4 bilhões — além de versões ajustadas por instrução e alinhamento (Tucano-SFT, Tucano-DPO e Tucano-2b4-Instruct), todas sob licença Apache 2.0 com pesos abertos.

Os modelos foram concebidos para pesquisadores e desenvolvedores que trabalham com processamento de linguagem natural em português, representando uma iniciativa dedicada ao avanço da geração de texto neural para o idioma. O projeto foi documentado na publicação científica "Tucano: Advancing Neural Text Generation for Portuguese", publicada na revista Patterns em 2025, e atualmente encontra-se arquivado.

Origem e Contexto do Projeto

O projeto Tucano foi desenvolvido no Brasil com o objetivo de preencher uma lacuna relevante no campo do processamento de linguagem natural: a escassez de modelos de linguagem de grande porte treinados de forma dedicada para o português. Enquanto a maioria dos modelos dominantes é treinada predominantemente em inglês, a iniciativa Tucano priorizou o idioma português desde a concepção do corpus até a etapa de treinamento. O código-fonte do projeto está disponível publicamente no GitHub, e todos os pesos dos modelos foram liberados sob a licença Apache 2.0, permitindo uso comercial e acadêmico.

Corpus e Arquitetura

O treinamento dos modelos Tucano foi realizado sobre o GigaVerbo, um corpus composto por aproximadamente 200 bilhões de tokens de texto em português, previamente deduplicado. Esse volume de dados representa um dos maiores conjuntos de treinamento já utilizados em um projeto focado exclusivamente no português. A arquitetura empregada é a transformer, padrão consolidado na construção de modelos de linguagem modernos.

A família de modelos foi disponibilizada em quatro variantes com diferentes tamanhos de parâmetros:

  • Tucano-160m — 160 milhões de parâmetros
  • Tucano-630m — 630 milhões de parâmetros
  • Tucano-1b1 — 1,1 bilhão de parâmetros
  • Tucano-2b4 — 2,4 bilhões de parâmetros

Além das variantes base, o projeto produziu versões ajustadas por instrução e por alinhamento de preferência humana: Tucano-SFT, Tucano-DPO e Tucano-2b4-Instruct. Essas versões foram desenvolvidas para ampliar a utilidade dos modelos em cenários de interação direta com usuários.

Modelos Relacionados e Extensões

O ecossistema Tucano deu origem a modelos derivados voltados para modalidades adicionais. Os modelos ViTucano-1b5-v1 e ViTucano-2b8-v1 são versões relacionadas que expandem as capacidades do projeto original. Esses modelos representam extensões da iniciativa base, embora o escopo principal do Tucano permaneça centrado na modalidade texto-para-texto em língua portuguesa.

Publicação Científica e Status Atual

Os resultados e a metodologia do projeto foram documentados no artigo científico "Tucano: Advancing Neural Text Generation for Portuguese", publicado na revista Patterns em 2025. A publicação detalha as decisões de design, os experimentos realizados e as avaliações comparativas dos modelos, servindo como referência para pesquisadores da área. O projeto encontra-se atualmente arquivado, o que indica que não está em desenvolvimento ativo, mas seus artefatos e documentação permanecem acessíveis para consulta e uso pela comunidade científica e de desenvolvimento de software.

Relatório