Tucano

背景と開発

Tucanoは、ポルトガル語のテキストを対象に特化して学習された大規模言語モデルの不足に対処するための専用の取り組みとして、ブラジルで開発されました。多くの著名な言語モデルは主に英語のコーパスで学習されていますが、ブラジル、ポルトガル、その他の国々で話される2億5000万人超のポルトガル語は、基盤モデル研究では歴史的にあまり注目されてきませんでした。Tucanoプロジェクトは、大規模で高品質なポルトガル語データセットを用いて、トランスフォーマーベースのモデルをゼロから構築することで、このギャップを埋めることを目指しました。

モデルは、約2000億の重複排除済みポルトガル語トークンから成るコーパスであるGigaVerboで事前学習されました。これは、大規模における堅牢な言語モデリングを支えるために組み立てられたものです。プロジェクトは、2025年に学術誌Patternsに掲載された論文Tucano: Advancing Neural Text Generation for Portugueseで記録されており、すべての重みと学習コードはApache 2.0ライセンスのもとGitHubで公開されています。

モデルのバリエーションと微調整版

Tucanoファミリーは4つのベースモデル規模にまたがり、研究者や開発者が計算制約とタスク要件に応じて適切なモデルを選べるようになっています:

Tucano-160m – 1億6000万パラメータ
Tucano-630m – 6億3000万パラメータ
Tucano-1b1 – 約11億パラメータ
Tucano-2b4 – 約24億パラメータ

ベースの事前学習モデルに加えて、プロジェクトではいくつかの微調整派生版も作成されました。Tucano-SFTとTucano-DPOは、それぞれ教師あり微調整とダイレクト・プリファレンス・オプティマイゼーションのバリアントを表し、Tucano-2b4-Instructは最大規模のベースモデルの指示追従版です。これらの微調整版は、ベースモデルの有用性を会話型およびタスク指向の用途へと広げます。

関連するマルチモーダルモデルであるViTucano-1b5-v1およびViTucano-2b8-v1も、ViTucanoという名称のもとでリリースされており、ポルトガル語のテキスト理解に加えて視覚モダリティを取り込む下流の取り組みが示唆されています。

ユースケースと想定読者

Tucanoは主に、ポルトガル語での自然言語処理タスクに取り組む研究者および開発者を対象としています。想定される用途には、テキスト生成、言語モデリングのベンチマーク、ドメイン固有のポルトガル語アプリケーション向けの微調整、そして低リソース言語環境におけるモデル挙動を研究するための研究ベースラインとしての利用などが含まれます。複数のモデル規模の提供により、限られたハードウェアでの学術的な実験から、よりリソースを要する応用研究まで、幅広い導入シナリオに対応できます。

モデルは、オープンな重みを備えた寛容なApache 2.0ライセンスのもとで公開されているため、自由に利用、改変、再配布が可能であり、専用のモデルAPIにアクセスできない人を含む幅広いコミュニティにとって利用しやすいものになっています。

現在の状況

Tucanoモデルシリーズは現在アーカイブされています。つまり、開発のアクティブなフェーズは終了しています。重み、コード、関連ドキュメントは、研究コミュニティによる参照および継続利用のために、プロジェクトのGitHubリポジトリを通じて引き続き公開されています。2025年にPatternsで調査結果が公表されたことで、プロジェクトに関連する手法、学習データ、評価結果が査読付きの記録として残り、再現性とさらなる研究を支えています。

インプット

出力

カテゴリー

テーマ

背景と開発

モデルのバリエーションと微調整版

ユースケースと想定読者

現在の状況