Tucano

Origem e Contexto do Projeto

O projeto Tucano foi desenvolvido no Brasil com o objetivo de preencher uma lacuna relevante no campo do processamento de linguagem natural: a escassez de modelos de linguagem de grande porte treinados de forma dedicada para o português. Enquanto a maioria dos modelos dominantes é treinada predominantemente em inglês, a iniciativa Tucano priorizou o idioma português desde a concepção do corpus até a etapa de treinamento. O código-fonte do projeto está disponível publicamente no GitHub, e todos os pesos dos modelos foram liberados sob a licença Apache 2.0, permitindo uso comercial e acadêmico.

Corpus e Arquitetura

O treinamento dos modelos Tucano foi realizado sobre o GigaVerbo, um corpus composto por aproximadamente 200 bilhões de tokens de texto em português, previamente deduplicado. Esse volume de dados representa um dos maiores conjuntos de treinamento já utilizados em um projeto focado exclusivamente no português. A arquitetura empregada é a transformer, padrão consolidado na construção de modelos de linguagem modernos.

A família de modelos foi disponibilizada em quatro variantes com diferentes tamanhos de parâmetros:

Tucano-160m — 160 milhões de parâmetros
Tucano-630m — 630 milhões de parâmetros
Tucano-1b1 — 1,1 bilhão de parâmetros
Tucano-2b4 — 2,4 bilhões de parâmetros

Além das variantes base, o projeto produziu versões ajustadas por instrução e por alinhamento de preferência humana: Tucano-SFT, Tucano-DPO e Tucano-2b4-Instruct. Essas versões foram desenvolvidas para ampliar a utilidade dos modelos em cenários de interação direta com usuários.

Modelos Relacionados e Extensões

O ecossistema Tucano deu origem a modelos derivados voltados para modalidades adicionais. Os modelos ViTucano-1b5-v1 e ViTucano-2b8-v1 são versões relacionadas que expandem as capacidades do projeto original. Esses modelos representam extensões da iniciativa base, embora o escopo principal do Tucano permaneça centrado na modalidade texto-para-texto em língua portuguesa.

Publicação Científica e Status Atual

Os resultados e a metodologia do projeto foram documentados no artigo científico "Tucano: Advancing Neural Text Generation for Portuguese", publicado na revista Patterns em 2025. A publicação detalha as decisões de design, os experimentos realizados e as avaliações comparativas dos modelos, servindo como referência para pesquisadores da área. O projeto encontra-se atualmente arquivado, o que indica que não está em desenvolvimento ativo, mas seus artefatos e documentação permanecem acessíveis para consulta e uso pela comunidade científica e de desenvolvimento de software.

Entrada

Saída

Categorias

Temas

Origem e Contexto do Projeto

Corpus e Arquitetura

Modelos Relacionados e Extensões

Publicação Científica e Status Atual