Tucano

Background ug Pag-uswag

Ang Tucano gihimo sa Brazil isip usa ka tinuyo nga paningkamot aron matubag ang kakulang sa mga large-scale language model nga gi-train nga espesipikong para sa Portuguese nga teksto. Bisan pa nga daghang bantog nga language model ang kasagaran nga gi-train kadaghanan sa English-language corpora, ang Portuguese—nga ginasulti sa kapin sa 250 milyon ka tawo sa tibuok Brazil, Portugal, ug uban pang mga nasud—historikal nga mas gamay’g pagtagad sa foundation model research. Ang tumong sa proyektong Tucano mao ang pag-ayo sa kahaw-ang kana pinaagi sa pagtukod sa mga transformer-based nga modelo gikan sa sinugdanan gamit ang usa ka dako ug taas nga kalidad nga Portuguese dataset.

Ang mga modelo gi-pre-train sa GigaVerbo, usa ka corpus nga mga 200 bilyon nga deduplicated Portuguese tokens nga gi-assemble aron suportahan ang lig-on nga language modeling sa sukod. Ang proyekto gidungog sa papel nga Tucano: Advancing Neural Text Generation for Portuguese, nga gimantala sa journal nga Patterns sa 2025, ug ang tanan nga weights ug training code magamit sa publiko sa GitHub ilalom sa lisensya nga Apache 2.0.

Mga Variant sa Modelo ug Mga Fine-Tuned nga Bersyon

Ang pamilya sa Tucano naglangkob sa upat ka base model sizes, nga nagtugot sa mga tigdukiduki ug developer sa pagpili ug model nga angay sa ilang computational constraints ug mga kinahanglanon sa buluhaton:

Tucano-160m – 160 milyon nga parameters
Tucano-630m – 630 milyon nga parameters
Tucano-1b1 – mga 1.1 bilyon nga parameters
Tucano-2b4 – mga 2.4 bilyon nga parameters

Gawas sa mga base pre-trained models, ang proyekto naghimo usab ug daghang fine-tuned derivatives. Ang Tucano-SFT ug Tucano-DPO nagrepresentar sa supervised fine-tuning ug direct preference optimization nga mga variant, matag usa, samtang ang Tucano-2b4-Instruct usa ka bersyon nga mosunod sa instruksyon sa pinakadako nga base model. Kini nga mga fine-tuned nga bersyon nagpalapad sa gamit sa mga base model ngadto sa mga conversational ug task-oriented nga aplikasyon.

Ang may kalabotang multimodal nga mga modelo, ViTucano-1b5-v1 ug ViTucano-2b8-v1, gipagawas usab ilalom sa ngalan nga ViTucano, nga nagpakita ug downstream nga trabaho nga naglakip sa visual modalities tupad sa Portuguese text understanding.

Mga Gamit ug Gituyo nga Panudlanan

Ang Tucano pangunahing gitumong sa mga tigdukiduki ug developer nga nagtrabaho sa natural language processing nga mga buluhaton sa Portuguese. Ang mga posibleng gamit naglakip sa text generation, language modeling benchmarks, fine-tuning para sa mga Portuguese nga aplikasyon nga tukmang sa domain, ug isip research baseline sa pagtuon sa pamatasan sa modelo sa mga sitwasyon nga ubos ang resources sa sinultian. Ang pagkaanaa sa daghang gidak-on sa modelo nagsuporta sa lain-laing deployment scenarios, gikan sa akademikong eksperimento sa limitado nga hardware hangtod sa mas makapanginahanglan nga applied research.

Tungod kay ang mga modelo gi-release ilalom sa permissive nga Apache 2.0 license nga adunay open weights, mahimo silang gamiton nga gawasnon, usbon, ug i-redistribute, nga nagpasabot nga mas dali silang ma-access sa mas lapad nga komunidad, lakip na kadtong wala’y access sa proprietary model APIs.

Kasaligan nga Kahimtang

Ang serye sa Tucano nga modelo kasamtangang gi-archive na, nga nagpasabot nga ang aktibong pag-uswag natapos na. Ang weights, code, ug ang may kalabotang dokumentasyon magamit pa sa publiko pinaagi sa GitHub repository sa proyekto alang sa reperensya ug padayon nga paggamit sa research community. Ang pagmantala sa mga resulta sa Patterns sa 2025 naghatag ug peer-reviewed nga rekord sa methodology, training data, ug evaluation results nga may kalabotan sa proyekto, nga nagsuporta sa reproducibility ug dugang nga pagtuon.

Input

Output

Categories

Themes

Background ug Pag-uswag

Mga Variant sa Modelo ug Mga Fine-Tuned nga Bersyon

Mga Gamit ug Gituyo nga Panudlanan

Kasaligan nga Kahimtang