Tucano

Latar Belakang lan Pangembangan

Tucano dikembangaké ing Brasil minangka upaya khusus kanggo ngatasi kekurangan model basa skala gedhé sing dilatih kanthi khusus nganggo teks basa Portugis. Nalika akeh model basa sing misuwur dilatih utamane nganggo korpus basa Inggris, basa Portugis—sing dituturaké déning luwih saka 250 yuta wong ing Brasil, Portugal, lan negara liya—sacara historis kurang narik perhatian ing riset model fondasi. Proyek Tucano ngarah kanggo nutupi kesenjangan iki kanthi mbangun model adhedhasar transformer saka wiwitan nggunakake dataset basa Portugis sing gedhé lan kualitasé dhuwur.

Model-model kasebut wis dilatih dhisik ing GigaVerbo, yaiku korpus kira-kira 200 milyar token Portugis sing wis diduplikasi (deduplicated) sing disusun kanggo ndhukung pemodelan basa sing kuwat ing skala gedhé. Proyek iki didokumentasikaké ing makalah Tucano: Advancing Neural Text Generation for Portuguese, sing diterbitaké ing jurnal Patterns ing taun 2025, lan kabeh bobot lan kode latihan kasedhiya kanthi umum ing GitHub miturut lisensi Apache 2.0.

Varian Model lan Versi sing Di-fine-Tune

Keluarga Tucano nyakup patang ukuran model dhasar, supaya para peneliti lan pangembang bisa milih model sing cocog karo watesan komputasi lan kabutuhan tugas:

Tucano-160m – 160 yuta parameter
Tucano-630m – 630 yuta parameter
Tucano-1b1 – kira-kira 1,1 milyar parameter
Tucano-2b4 – kira-kira 2,4 milyar parameter

Saliyane model dhasar sing wis dilatih dhisik, proyek iki ngasilaké sawetara turunan sing wis di-fine-tune. Tucano-SFT lan Tucano-DPO nggambarake varian supervised fine-tuning lan direct preference optimization, dene Tucano-2b4-Instruct minangka versi sing manut instruksi saka model dhasar paling gedhé. Versi sing wis di-fine-tune iki nggedhekaké kegunaan model dhasar kanggo aplikasi obrolan lan aplikasi sing fokus marang tugas.

Model multimodal sing gegandhengan, ViTucano-1b5-v1 lan ViTucano-2b8-v1, uga dirilis kanthi jeneng ViTucano, nuduhaké karya hilir sing nggabungaké modalitas visual bebarengan karo pangerten teks Portugis.

Kasus Panggunaan lan Pamirsa sing Ditargetaké

Tucano utamane ditujokake kanggo para peneliti lan pangembang sing nggarap tugas pemrosesan basa alami ing basa Portugis. Kasus panggunaan sing bisa ditindakake kalebu generasi teks, tolok ukur pemodelan basa, fine-tuning kanggo aplikasi Portugis sing spesifik domain, lan minangka basis riset kanggo nyinaoni prilaku model ing setelan basa sing sumber dayane luwih sithik. Kasedhiyan pirang-pirang ukuran model ndhukung macem-macem skenario panyebaran, saka eksperimen akademik ing piranti keras sing winates nganti riset terapan sing luwih butuh sumber daya.

Status Saiki

Seri model Tucano saiki wis diarsipaké, tegesé pangembangan aktif wis rampung. Bobot, kode, lan dokumentasi sing gegandhengan tetep bisa diakses kanthi umum liwat repositori GitHub proyek kasebut kanggo referensi lan panggunaan terus dening komunitas riset. Publikasi asil ing Patterns ing taun 2025 nyedhiyakake cathetan sing wis ditelaah sejawat (peer-reviewed) babagan metodologi, data latihan, lan asil evaluasi sing ana gandhengane karo proyek kasebut, kanggo ndhukung reprodusibilitas lan panliten luwih lanjut.

Input

Ngasilake

Kategori

Tema

Latar Belakang lan Pangembangan

Varian Model lan Versi sing Di-fine-Tune

Kasus Panggunaan lan Pamirsa sing Ditargetaké

Status Saiki