Transformer Apache 2.0 Yes
Português

Dugal

text

Génnalu

text

Tëem yi

generative ainlpresearch

Tucano waa jëfandikoo familì bi mujjulante ak transformer language models, waaw ci open-weights, jëfandikoo bi daldi mujjulante na ci Brazil, te wàllu ci biir bu baax, wàll bi am solo ci qoraal bu baax ci yeneen: qoraal bu ñëw ci luutal Portuguese. Modèl-yu wàccal na ci GigaVerbo, biir dataset bu am qiyaas bu 200 bilyon tokens Portuguese bu deduplicated, te am na ci 4 dimensi, ci 160 million jëfandikoo 2.4 billion parameters.

Variantes bu dem ci fine-tuning bi am na: versions bu am instruction-following, ak versions bu am preference-optimized, te dérivé multimodal bu laaj ci biir bi, wàccal na ci jëfandikoo ViTucano. Tucano mooy loogu talibe ak developers yi, bu liggéey ci ndimbal bu jëfandikoo ci natural language processing ci Portuguese, lu taalibe bi am na taamu ci taalibe bu am na ci jëfandikoo language model bu baax, ndaxte taalibe bi war na wax ci mbind mi.

Projek bi am na dokumentasyon ci njëpp 2025 paper bu baax ci journal Patterns, te wàccal na ci lisans Apache 2.0. Weights ak code bi am na ci biir GitHub, bu am na ci publik. Séries model bi am na jëfandikoo bu wër ci archive bi.

Asal ak Devlopman

Tucano te devlope ann Brezil kòm yon efò dedye pou rezoud mank modèl lang gwo echèl yo ki fòme espesyalman sou tèks Pòtigè. Pandan ke anpil modèl lang enpòtan yo fòme sitou sou korpus ki an Anglè, Pòtigè—ki pale pa plis pase 250 milyon moun atravè Brezil, Pòtigal, ak lòt peyi—te konn resevwa mwens atansyon nan rechèch sou modèl fondasyon yo. Pwojè Tucano a te vize fèmen diferans sa a lè li bati modèl ki baze sou transformer depi nan kòmansman, ak yon gwo done Pòtigè ki gen bon jan kalite.

Modèl yo te pre-fòme sou GigaVerbo, yon korpus ki gen anviwon 200 milya token Pòtigè yo ki dedupliké, rasanble pou sipòte modèl lang ki solid nan gwo echèl. Pwojè a dokimante nan atik la Tucano: Advancing Neural Text Generation for Portuguese, ki te pibliye nan jounal Patterns an 2025, epi tout pwa yo ak kòd fòmasyon yo disponib piblikman sou GitHub anba lisans Apache 2.0 la.

Varyant Modèl yo ak Vèsyon ki Fòme Anplis

Fanmi Tucano a gen kat gwosè modèl baz, sa ki pèmèt chèchè yo ak devlopè yo chwazi yon modèl ki adapte ak kontrent kalkil yo ak kondisyon travay yo:

  • Tucano-160m – 160 milyon paramèt
  • Tucano-630m – 630 milyon paramèt
  • Tucano-1b1 – anviwon 1.1 milya paramèt
  • Tucano-2b4 – anviwon 2.4 milya paramèt

Anplis modèl baz yo ki pre-fòme, pwojè a pwodui plizyè dérivè ki fòme anplis. Tucano-SFT ak Tucano-DPO reprezante vèsyon pou fine-tuning sipèvize ak vèsyon pou optimizasyon preferans dirèk, respektivman, alòske Tucano-2b4-Instruct se yon vèsyon ki swiv enstriksyon modèl baz ki pi gwo a. Vèsyon ki fòme anplis sa yo elaji itilite modèl baz yo pou aplikasyon ki gen rapò ak konvèsasyon ak travay ki vize.

Genyen tou modèl multimodal ki gen rapò yo, ViTucano-1b5-v1 ak ViTucano-2b8-v1, ki te lage tou anba non ViTucano a, sa ki montre travay ki vin apre kote yo enkòpore modalite vizyèl ansanm ak konpreyansyon tèks Pòtigè.

Ka Itilizasyon ak Odyans Li Vize

Tucano vize sitou chèchè yo ak devlopè yo k ap travay sou travay pwosesis lang natirèl an Pòtigè. Ka itilizasyon posib yo gen ladan jenerasyon tèks, referans pou modèl lang, fine-tuning pou aplikasyon Pòtigè ki pou yon domèn espesifik, epi kòm yon baz rechèch pou etidye fason modèl yo konpòte yo nan anviwònman lang ki gen mwens resous. Disponibilite plizyè gwosè modèl sipòte plizyè sitiyasyon déploiement, sòti nan eksperimantasyon akademik sou ekipman ki limite rive nan rechèch aplike ki mande plis resous.

Paske modèl yo lage anba lisans Apache 2.0 ki pèmèt anpil, ak pwa ki ouvè, yo ka itilize lib, modifye, epi re-distribye, sa ki fè yo aksesib pou yon gwo kominote, menm pou moun ki pa gen aksè ak API modèl propriétaires.

Estati Kouran

Seri modèl Tucano a kounye a mete sou archiving, sa vle di devlopman aktif la fini. Pwa yo, kòd yo, ak dokiman ki asosye yo rete aksesib piblikman atravè depo GitHub pwojè a pou referans ak itilizasyon kontinye pa kominote rechèch la. Piblikasyon rezilta yo nan Patterns an 2025 bay yon dosye ki revize pa kanmarad sou metodoloji a, done fòmasyon yo, ak rezilta evalyasyon ki gen rapò ak pwojè a, sa ki sipòte repwodibilite ak etid plis.

Rapport