Transformer Apache 2.0 Yes
Português

Input

text

Keluaran

text

Tema

generative ainlpresearch

Tucano ialah sebuah keluarga model bahasa transformer berwajaran terbuka yang dibangunkan di Brazil dan dilatih secara eksklusif pada teks berbahasa Portugis. Model-model ini telah dipratatih pada GigaVerbo, sebuah set data yang mengandungi kira-kira 200 bilion token Portugis yang telah dinyahduplikasi, dan tersedia dalam empat saiz, daripada 160 juta hingga 2.4 bilion parameter.

Varian yang disesuaikan termasuk versi yang mengikut arahan dan versi yang dioptimumkan mengikut keutamaan, serta derivatif multimodal yang berkaitan telah dikeluarkan di bawah nama ViTucano. Tucano ditujukan untuk penyelidik dan pembangun yang menjalankan tugasan pemprosesan bahasa semula jadi dalam bahasa Portugis, iaitu bahasa yang secara sejarah kurang diwakili dalam pembangunan model bahasa berskala besar.

Projek ini didokumenkan dalam sebuah kertas kerja 2025 yang diterbitkan dalam jurnal Patterns dan dikeluarkan di bawah lesen Apache 2.0, dengan wajaran dan kod tersedia secara terbuka di GitHub. Siri model ini kini telah diarkibkan.

Latar Belakang dan Pembangunan

Tucano dibangunkan di Brazil sebagai usaha khusus untuk menangani kekurangan model bahasa berskala besar yang dilatih secara khusus pada teks Portugis. Walaupun banyak model bahasa terkemuka dilatih terutamanya pada korpus berbahasa Inggeris, bahasa Portugis—dituturkan oleh lebih 250 juta orang di seluruh Brazil, Portugal, dan negara lain—secara sejarah kurang mendapat perhatian dalam penyelidikan model asas. Projek Tucano bertujuan merapatkan jurang ini dengan membina model berasaskan transformer dari awal menggunakan set data Portugis yang besar dan berkualiti tinggi.

Model-model tersebut telah diprapelatih pada GigaVerbo, sebuah korpus yang mengandungi kira-kira 200 bilion token Portugis yang telah didedup untuk menyokong pemodelan bahasa yang mantap pada skala. Projek ini didokumenkan dalam kertas Tucano: Advancing Neural Text Generation for Portuguese, yang diterbitkan dalam jurnal Patterns pada 2025, dan semua bobot serta kod latihan tersedia secara terbuka di GitHub di bawah lesen Apache 2.0.

Keluarga Tucano merangkumi empat saiz model asas, membolehkan penyelidik dan pembangun memilih model yang sesuai dengan kekangan pengiraan serta keperluan tugasan mereka:

  • Tucano-160m – 160 juta parameter
  • Tucano-630m – 630 juta parameter
  • Tucano-1b1 – kira-kira 1.1 bilion parameter
  • Tucano-2b4 – kira-kira 2.4 bilion parameter

Selain model asas yang diprapelatih, projek ini menghasilkan beberapa terbitan yang ditala halus. Tucano-SFT dan Tucano-DPO masing-masing mewakili varian penalaan halus berpenyeliaan dan pengoptimuman pilihan langsung, manakala Tucano-2b4-Instruct ialah versi yang mengikut arahan bagi model asas terbesar. Versi yang ditala halus ini memperluas kegunaan model asas ke arah aplikasi perbualan dan berorientasikan tugasan.

Model multimodal berkaitan, ViTucano-1b5-v1 dan ViTucano-2b8-v1, turut dikeluarkan di bawah nama ViTucano, yang menunjukkan kerja hiliran yang menggabungkan modaliti visual bersama pemahaman teks Portugis.

Tucano terutamanya ditujukan kepada penyelidik dan pembangun yang menjalankan tugasan pemprosesan bahasa semula jadi dalam bahasa Portugis. Potensi kes penggunaan termasuk penjanaan teks, penanda aras pemodelan bahasa, penalaan halus untuk aplikasi Portugis khusus domain, serta sebagai asas penyelidikan untuk mengkaji gelagat model dalam persekitaran bahasa berkeperluan sumber yang lebih rendah. Ketersediaan pelbagai saiz model menyokong pelbagai senario pelaksanaan, daripada eksperimen akademik dengan perkakasan terhad kepada penyelidikan gunaan yang lebih intensif sumber.

Oleh kerana model-model dikeluarkan di bawah lesen Apache 2.0 yang membenarkan dengan bobot terbuka, ia boleh digunakan, diubah suai, dan diedarkan semula secara bebas, sekali gus menjadikannya mudah dicapai oleh komuniti yang lebih luas termasuk mereka yang tidak mempunyai akses kepada API model proprietari.

Seri model Tucano kini telah diarkibkan, yang bermaksud pembangunan aktif telah berakhir. Bobot, kod, dan dokumentasi berkaitan kekal boleh diakses secara terbuka melalui repositori GitHub projek untuk rujukan dan penggunaan berterusan oleh komuniti penyelidikan. Penerbitan dapatan dalam Patterns pada 2025 menyediakan rekod yang disemak rakan sebaya tentang metodologi, data latihan dan keputusan penilaian yang berkaitan dengan projek, sekali gus menyokong kebolehhasilan semula dan kajian lanjut.

Laporan