Tucano
输入
输出
主题
Tucano 是一组在巴西开发的开放权重(open-weights)Transformer 语言模型家族,并且仅使用葡萄牙语文本进行训练。这些模型在 GigaVerbo 上进行了预训练,GigaVerbo 是一个约 2000 亿去重后的葡萄牙语 token 数据集,并提供四种规模,从 1.6 亿到 24 亿参数不等。
经过微调的变体包括遵循指令(instruction-following)版本和偏好优化(preference-optimized)版本,并以 ViTucano 名称发布了相关的多模态衍生模型。Tucano 面向从事葡萄牙语自然语言处理任务的研究人员和开发者;而葡萄牙语在大规模语言模型开发领域在历史上长期代表性不足。
该项目在《Patterns》期刊于 2025 年发表的一篇论文中有详细记录,并以 Apache 2.0 许可证发布,权重和代码已在 GitHub 上公开提供。目前,该模型系列已归档。
背景与发展
Tucano 在巴西开发,旨在应对专门针对葡萄牙语文本训练的大规模语言模型供给不足的问题。尽管许多知名语言模型主要在英文语料上进行训练,但葡萄牙语——在巴西、葡萄牙以及其他国家由超过 2.5 亿人使用——在基础模型研究中长期受到的关注较少。Tucano 项目通过从零开始构建基于 Transformer 的模型,并使用一套大型、高质量的葡萄牙语数据集,来弥补这一差距。
这些模型在 GigaVerbo 上进行了预训练,GigaVerbo 是一个约 2000 亿去重后的葡萄牙语 token 语料库,旨在支持大规模、稳健的语言建模。该项目在论文 Tucano: Advancing Neural Text Generation for Portuguese 中有所记录,该论文于 2025 年发表在期刊 Patterns 上;所有权重与训练代码均以 Apache 2.0 许可证在 GitHub 上公开提供。
模型变体与微调版本
Tucano 系列覆盖四种基础模型规模,使研究人员和开发者能够根据自身的计算约束与任务需求选择合适的模型:
- Tucano-160m – 1.6 亿参数
- Tucano-630m – 6.3 亿参数
- Tucano-1b1 – 约 11 亿参数
- Tucano-2b4 – 约 24 亿参数
除基础预训练模型外,项目还产出了若干微调衍生版本。Tucano-SFT 和 Tucano-DPO 分别代表监督微调与直接偏好优化的变体,而 Tucano-2b4-Instruct 则是最大基础模型的指令跟随版本。这些微调版本将基础模型的适用性拓展到对话与面向任务的应用场景。
相关的多模态模型 ViTucano-1b5-v1 和 ViTucano-2b8-v1 也以 ViTucano 名称发布,表明后续工作可能将视觉模态与葡萄牙语文本理解相结合。
使用场景与目标受众
Tucano 主要面向在葡萄牙语自然语言处理任务上开展工作的研究人员与开发者。潜在使用场景包括文本生成、语言建模基准评测、针对特定领域的葡萄牙语应用进行微调,以及作为研究基线用于探索低资源语言环境下的模型行为。多种模型规模的提供支持从有限硬件上的学术实验到更高资源投入的应用型研究等多样化部署情境。
由于模型以宽松的 Apache 2.0 许可证发布,并提供开放权重,它们可以被自由使用、修改与再分发,从而让更广泛的社区能够接触到这些模型,包括那些无法使用专有模型 API 的群体。
当前状态
Tucano 模型系列目前已归档,意味着主动开发已结束。权重、代码以及相关文档仍可通过项目的 GitHub 仓库公开获取,供参考并供研究社区继续使用。2025 年在 Patterns 发表研究成果,为该项目的方法论、训练数据与评估结果提供了同行评审记录,从而支持可复现性并推动进一步研究。