Tucano
輸入
輸出
主題
Tucano 是一系列在巴西開發的開放權重(open-weights)轉換器語言模型,並且僅使用葡萄牙語文本進行訓練。這些模型先在 GigaVerbo 上進行預訓練,GigaVerbo 是一個約 2000 億個去重後葡萄牙語 token 的資料集,並提供四種規模,參數量從 1.6 億到 24 億不等。
微調版本包含遵循指令(instruction-following)與偏好最佳化(preference-optimized)版本;相關的多模態衍生模型則以 ViTucano 名稱發布。Tucano 旨在供從事葡萄牙語自然語言處理任務的研究人員與開發者使用;而葡萄牙語在大型語言模型開發領域中,歷史上一直相對代表性不足。
該計畫已在《Patterns》期刊於 2025 年發表的論文中有所記錄,並以 Apache 2.0 授權釋出;模型權重與程式碼已在 GitHub 上公開提供。目前,這個模型系列已歸檔。
背景與開發
Tucano 於巴西開發,作為一項專注的努力,旨在解決專門以葡萄牙文訓練的大型語言模型供給不足的問題。儘管許多知名語言模型主要以英文語料進行訓練,但葡萄牙文——在巴西、葡萄牙以及其他國家由超過 2.5 億人使用——在基礎模型研究中歷來受到的關注較少。Tucano 專案的目標是透過從零開始打造基於 Transformer 的模型、並使用大型高品質葡萄牙文資料集來縮小這一差距。
這些模型在 GigaVerbo 上進行預訓練,GigaVerbo 是一個約 2000 億個去重後的葡萄牙文 token 所組成的語料庫,旨在支援大規模下穩健的語言建模。該專案在論文 Tucano: Advancing Neural Text Generation for Portuguese 中有所記載,該論文於 2025 年發表於期刊 Patterns,且所有權重與訓練程式碼皆依 Apache 2.0 授權在 GitHub 上公開提供。
模型變體與微調版本
Tucano 系列涵蓋四種基礎模型規模,使研究者與開發者能夠根據自身的計算限制與任務需求選擇合適的模型:
- Tucano-160m – 1.6 億參數
- Tucano-630m – 6.3 億參數
- Tucano-1b1 – 約 11 億參數
- Tucano-2b4 – 約 24 億參數
除了基礎預訓練模型之外,該專案還產出了多個微調衍生版本。Tucano-SFT 與 Tucano-DPO 分別代表監督式微調與直接偏好最佳化的變體,而 Tucano-2b4-Instruct 則是最大基礎模型的指令遵循版本。這些微調版本擴展了基礎模型在對話與以任務為導向的應用中的實用性。
相關的多模態模型 ViTucano-1b5-v1 與 ViTucano-2b8-v1 也以 ViTucano 名稱釋出,暗示後續工作將把視覺模態與葡萄牙文理解能力一併納入。
使用情境與預期受眾
Tucano 主要面向在葡萄牙文自然語言處理任務上工作的研究者與開發者。潛在使用情境包括文字生成、語言建模基準、針對特定領域的葡萄牙文應用進行微調,以及作為研究基準,用於在低資源語言環境中研究模型行為。多種模型規模的提供支援各種部署情境,從在有限硬體上的學術實驗,到更高資源需求的應用型研究。
由於模型在寬鬆的 Apache 2.0 授權下以開放權重釋出,因此可自由使用、修改與再分發,使其能夠被更廣泛的社群所使用,包括那些無法取得專有模型 API 的使用者。
目前狀態
Tucano 模型系列目前已歸檔,表示主動開發已告一段落。權重、程式碼與相關文件仍可透過該專案的 GitHub 儲存庫公開取得,以供參考並讓研究社群持續使用。該專案於 2025 年在 Patterns 發表研究成果,提供了經同行審查的方式、訓練資料與評估結果記錄,支援可重現性並促進後續研究。