Transformer Apache 2.0 Yes
Português

Input

text

Ngasilake

text

Tema

generative ainlpresearch

Tucano minangka kulawarga model basa transformer open-weights sing dikembangaké ing Brasil lan dilatih mung nganggo teks basa Portugis. Model-model kasebut wis dipra-latih ing GigaVerbo, sawijining kumpulan data kira-kira 200 milyar token Portugis sing wis diduplikasi, lan kasedhiya ing papat ukuran saka 160 yuta nganti 2,4 milyar parameter.

Varian sing wis disetel (fine-tuned) kalebu versi sing ngetutaké instruksi lan versi sing dioptimalake adhedhasar preferensi, lan turunan multimodal sing gegandhengan dirilis kanthi jeneng ViTucano. Tucano dimaksudaké kanggo para panaliti lan pangembang sing nggarap tugas pangolahan basa alami ing basa Portugis, sawijining basa sing sajarahé kurang diwakili ing pangembangan model basa skala gedhé.

Proyèk iki didokumentasikaké ing makalah taun 2025 sing diterbitaké ing jurnal Patterns lan dirilis miturut lisensi Apache 2.0, kanthi bobot lan kode sing kasedhiya kanthi umum ing GitHub. Seri model kasebut saiki wis diarsipaké.

Latar Belakang lan Pangembangan

Tucano dikembangaké ing Brasil minangka upaya khusus kanggo ngatasi kekurangan model basa skala gedhé sing dilatih kanthi khusus nganggo teks basa Portugis. Nalika akeh model basa sing misuwur dilatih utamane nganggo korpus basa Inggris, basa Portugis—sing dituturaké déning luwih saka 250 yuta wong ing Brasil, Portugal, lan negara liya—sacara historis kurang narik perhatian ing riset model fondasi. Proyek Tucano ngarah kanggo nutupi kesenjangan iki kanthi mbangun model adhedhasar transformer saka wiwitan nggunakake dataset basa Portugis sing gedhé lan kualitasé dhuwur.

Model-model kasebut wis dilatih dhisik ing GigaVerbo, yaiku korpus kira-kira 200 milyar token Portugis sing wis diduplikasi (deduplicated) sing disusun kanggo ndhukung pemodelan basa sing kuwat ing skala gedhé. Proyek iki didokumentasikaké ing makalah Tucano: Advancing Neural Text Generation for Portuguese, sing diterbitaké ing jurnal Patterns ing taun 2025, lan kabeh bobot lan kode latihan kasedhiya kanthi umum ing GitHub miturut lisensi Apache 2.0.

Varian Model lan Versi sing Di-fine-Tune

Keluarga Tucano nyakup patang ukuran model dhasar, supaya para peneliti lan pangembang bisa milih model sing cocog karo watesan komputasi lan kabutuhan tugas:

  • Tucano-160m – 160 yuta parameter
  • Tucano-630m – 630 yuta parameter
  • Tucano-1b1 – kira-kira 1,1 milyar parameter
  • Tucano-2b4 – kira-kira 2,4 milyar parameter

Saliyane model dhasar sing wis dilatih dhisik, proyek iki ngasilaké sawetara turunan sing wis di-fine-tune. Tucano-SFT lan Tucano-DPO nggambarake varian supervised fine-tuning lan direct preference optimization, dene Tucano-2b4-Instruct minangka versi sing manut instruksi saka model dhasar paling gedhé. Versi sing wis di-fine-tune iki nggedhekaké kegunaan model dhasar kanggo aplikasi obrolan lan aplikasi sing fokus marang tugas.

Model multimodal sing gegandhengan, ViTucano-1b5-v1 lan ViTucano-2b8-v1, uga dirilis kanthi jeneng ViTucano, nuduhaké karya hilir sing nggabungaké modalitas visual bebarengan karo pangerten teks Portugis.

Kasus Panggunaan lan Pamirsa sing Ditargetaké

Tucano utamane ditujokake kanggo para peneliti lan pangembang sing nggarap tugas pemrosesan basa alami ing basa Portugis. Kasus panggunaan sing bisa ditindakake kalebu generasi teks, tolok ukur pemodelan basa, fine-tuning kanggo aplikasi Portugis sing spesifik domain, lan minangka basis riset kanggo nyinaoni prilaku model ing setelan basa sing sumber dayane luwih sithik. Kasedhiyan pirang-pirang ukuran model ndhukung macem-macem skenario panyebaran, saka eksperimen akademik ing piranti keras sing winates nganti riset terapan sing luwih butuh sumber daya.

Status Saiki

Seri model Tucano saiki wis diarsipaké, tegesé pangembangan aktif wis rampung. Bobot, kode, lan dokumentasi sing gegandhengan tetep bisa diakses kanthi umum liwat repositori GitHub proyek kasebut kanggo referensi lan panggunaan terus dening komunitas riset. Publikasi asil ing Patterns ing taun 2025 nyedhiyakake cathetan sing wis ditelaah sejawat (peer-reviewed) babagan metodologi, data latihan, lan asil evaluasi sing ana gandhengane karo proyek kasebut, kanggo ndhukung reprodusibilitas lan panliten luwih lanjut.

Laporan