Tucano
Input
Output
Categories
Themes
Ang Tucano usa ka pamilya sa mga transformer language model nga open-weights, nga gihimo sa Brazil ug gitrain eksklusibo sa teksto nga pinulongang Portuguese. Ang mga model gipaunang gitrain sa GigaVerbo, usa ka dataset nga mga 200 bilyon nga deduplicated Portuguese tokens, ug magamit sa upat ka gidak-on gikan sa 160 milyon hangtod sa 2.4 bilyon nga parameters.
Ang mga fine-tuned nga bersyon naglakip sa mga mosunod sa instruksyon ug mga bersyon nga na-optimize base sa preference, ug ang mga may kalabotan nga multimodal nga derivatives gi-release ilalom sa ngalan nga ViTucano. Ang Tucano gituyo para sa mga tigdukiduki ug developer nga nagtrabaho sa mga buluhaton sa natural language processing sa Portuguese, usa ka pinulongan nga kasaysayan nga kulang sa representasyon sa pagpalambo sa dagkong language model.
Ang proyekto dokumentado sa usa ka papel sa 2025 nga gipatik sa journal Patterns ug gi-release ilalom sa lisensya nga Apache 2.0, nga ang mga weights ug code naa sa publiko sa GitHub. Ang serye sa model karon gi-archive na.
Background ug Pag-uswag
Ang Tucano gihimo sa Brazil isip usa ka tinuyo nga paningkamot aron matubag ang kakulang sa mga large-scale language model nga gi-train nga espesipikong para sa Portuguese nga teksto. Bisan pa nga daghang bantog nga language model ang kasagaran nga gi-train kadaghanan sa English-language corpora, ang Portuguese—nga ginasulti sa kapin sa 250 milyon ka tawo sa tibuok Brazil, Portugal, ug uban pang mga nasud—historikal nga mas gamay’g pagtagad sa foundation model research. Ang tumong sa proyektong Tucano mao ang pag-ayo sa kahaw-ang kana pinaagi sa pagtukod sa mga transformer-based nga modelo gikan sa sinugdanan gamit ang usa ka dako ug taas nga kalidad nga Portuguese dataset.
Ang mga modelo gi-pre-train sa GigaVerbo, usa ka corpus nga mga 200 bilyon nga deduplicated Portuguese tokens nga gi-assemble aron suportahan ang lig-on nga language modeling sa sukod. Ang proyekto gidungog sa papel nga Tucano: Advancing Neural Text Generation for Portuguese, nga gimantala sa journal nga Patterns sa 2025, ug ang tanan nga weights ug training code magamit sa publiko sa GitHub ilalom sa lisensya nga Apache 2.0.
Mga Variant sa Modelo ug Mga Fine-Tuned nga Bersyon
Ang pamilya sa Tucano naglangkob sa upat ka base model sizes, nga nagtugot sa mga tigdukiduki ug developer sa pagpili ug model nga angay sa ilang computational constraints ug mga kinahanglanon sa buluhaton:
- Tucano-160m – 160 milyon nga parameters
- Tucano-630m – 630 milyon nga parameters
- Tucano-1b1 – mga 1.1 bilyon nga parameters
- Tucano-2b4 – mga 2.4 bilyon nga parameters
Gawas sa mga base pre-trained models, ang proyekto naghimo usab ug daghang fine-tuned derivatives. Ang Tucano-SFT ug Tucano-DPO nagrepresentar sa supervised fine-tuning ug direct preference optimization nga mga variant, matag usa, samtang ang Tucano-2b4-Instruct usa ka bersyon nga mosunod sa instruksyon sa pinakadako nga base model. Kini nga mga fine-tuned nga bersyon nagpalapad sa gamit sa mga base model ngadto sa mga conversational ug task-oriented nga aplikasyon.
Ang may kalabotang multimodal nga mga modelo, ViTucano-1b5-v1 ug ViTucano-2b8-v1, gipagawas usab ilalom sa ngalan nga ViTucano, nga nagpakita ug downstream nga trabaho nga naglakip sa visual modalities tupad sa Portuguese text understanding.
Mga Gamit ug Gituyo nga Panudlanan
Ang Tucano pangunahing gitumong sa mga tigdukiduki ug developer nga nagtrabaho sa natural language processing nga mga buluhaton sa Portuguese. Ang mga posibleng gamit naglakip sa text generation, language modeling benchmarks, fine-tuning para sa mga Portuguese nga aplikasyon nga tukmang sa domain, ug isip research baseline sa pagtuon sa pamatasan sa modelo sa mga sitwasyon nga ubos ang resources sa sinultian. Ang pagkaanaa sa daghang gidak-on sa modelo nagsuporta sa lain-laing deployment scenarios, gikan sa akademikong eksperimento sa limitado nga hardware hangtod sa mas makapanginahanglan nga applied research.
Tungod kay ang mga modelo gi-release ilalom sa permissive nga Apache 2.0 license nga adunay open weights, mahimo silang gamiton nga gawasnon, usbon, ug i-redistribute, nga nagpasabot nga mas dali silang ma-access sa mas lapad nga komunidad, lakip na kadtong wala’y access sa proprietary model APIs.
Kasaligan nga Kahimtang
Ang serye sa Tucano nga modelo kasamtangang gi-archive na, nga nagpasabot nga ang aktibong pag-uswag natapos na. Ang weights, code, ug ang may kalabotang dokumentasyon magamit pa sa publiko pinaagi sa GitHub repository sa proyekto alang sa reperensya ug padayon nga paggamit sa research community. Ang pagmantala sa mga resulta sa Patterns sa 2025 naghatag ug peer-reviewed nga rekord sa methodology, training data, ug evaluation results nga may kalabotan sa proyekto, nga nagsuporta sa reproducibility ug dugang nga pagtuon.