Transformer Apache 2.0 Yes
Português

Input

text

Oħroġ

text

Temi

generative ainlpresearch

Tucano hija familja ta’ mudelli lingwistiċi transformer b’open-weights żviluppati fil-Brażil u mħarrġa esklussivament fuq test bil-Portugiż. Il-mudelli ġew imħarrġa minn qabel fuq GigaVerbo, sett ta’ data ta’ madwar 200 biljun token Portugiż deduplikati, u huma disponibbli f’erba’ daqsijiet li jvarjaw minn 160 miljun sa 2.4 biljun parametru.

Varjanti mħarrġa b’mod fin jinkludu verżjonijiet li jsegwu l-istruzzjonijiet u verżjonijiet ottimizzati għall-preferenzi, u derivati multimodali relatati ġew rilaxxati taħt l-isem ViTucano. Tucano huwa maħsub għar-riċerkaturi u l-iżviluppaturi li jaħdmu fuq kompiti ta’ pproċessar tal-lingwa naturali bil-Portugiż, lingwa li storikament kienet sottorappreżentata fl-iżvilupp ta’ mudelli lingwistiċi fuq skala kbira.

Il-proġett huwa dokumentat f’artiklu tal-2025 ippubblikat fil-ġurnal Patterns u jinħareġ taħt il-liċenzja Apache 2.0, b’piżijiet u kodiċi disponibbli pubblikament fuq GitHub. Is-serje tal-mudelli bħalissa ġiet arkivjata.

Fond u Żvilupp

Tucano ġie żviluppat fil-Brażil bħala sforz ddedikat biex jindirizza n-nuqqas ta’ mudelli kbar tal-lingwa fuq skala kbira mħarrġa speċifikament fuq test bil-Portugiż. Filwaqt li ħafna mudelli prominenti tal-lingwa huma mħarrġa l-aktar fuq korpi bl-Ingliż, il-Portugiż—mitkellem minn aktar minn 250 miljun persuna fil-Brażil, il-Portugall, u nazzjonijiet oħra—storikament irċieva inqas attenzjoni fir-riċerka tal-mudelli ta’ bażi. Il-proġett Tucano kellu l-għan li jagħlaq din il-lakuna billi jibni mudelli bbażati fuq transformer mill-bidu, bl-użu ta’ dataset kbir u ta’ kwalità għolja bil-Portugiż.

Il-mudelli ġew ippre-trainjati fuq GigaVerbo, korpus ta’ madwar 200 biljun token Portugiż deduplicati, miġbur biex jappoġġja mudellar robust tal-lingwa fuq skala. Il-proġett huwa dokumentat fil-karta Tucano: Advancing Neural Text Generation for Portuguese, ippubblikata fil-ġurnal Patterns fl-2025, u l-piżijiet u l-kodiċi tat-taħriġ kollha huma disponibbli pubblikament fuq GitHub taħt il-liċenzja Apache 2.0.

Varjanti tal-Mudell u Verżjonijiet Imfittxla

Il-familja Tucano tkopri erba’ daqsijiet ta’ mudell bażi, li jippermettu lir-riċerkaturi u lill-iżviluppaturi jagħżlu mudell adattat għall-limitazzjonijiet komputazzjonali tagħhom u r-rekwiżiti tal-kompiti:

  • Tucano-160m – 160 miljun parametru
  • Tucano-630m – 630 miljun parametru
  • Tucano-1b1 – madwar 1.1 biljun parametru
  • Tucano-2b4 – madwar 2.4 biljun parametru

Minbarra l-mudelli bażi pre-trainjati, il-proġett ipproduċa diversi derivattivi mħarrġa b’mod imfittx. Tucano-SFT u Tucano-DPO jirrappreżentaw varjanti ta’ supervised fine-tuning u direct preference optimization rispettivament, filwaqt li Tucano-2b4-Instruct hija verżjoni li ssegwi l-istruzzjonijiet tal-akbar mudell bażi. Dawn il-verżjonijiet imfittxla jespandu l-utilità tal-mudelli bażi lejn applikazzjonijiet konversazzjonali u orjentati lejn kompiti.

Mudelli multimodali relatati, ViTucano-1b5-v1 u ViTucano-2b8-v1, ġew rilaxxati wkoll taħt l-isem ViTucano, u b’hekk jissuġġerixxu xogħol downstream li jinkorpora modalitajiet viżivi flimkien mal-fehim tat-test bil-Portugiż.

Każijiet ta’ Użu u Udjenza Maħsuba

Tucano huwa mmirat primarjament lejn riċerkaturi u żviluppaturi li jaħdmu fuq kompiti ta’ pproċessar tal-lingwa naturali bil-Portugiż. Każijiet ta’ użu potenzjali jinkludu ġenerazzjoni ta’ test, benchmarks tal-mudellar tal-lingwa, fine-tuning għal applikazzjonijiet Portugiżi speċifiċi għad-dominju, u bħala bażi ta’ riċerka għall-istudju tal-imġiba tal-mudelli f’ambjenti ta’ lingwi b’riżorsi aktar baxxi. Id-disponibbiltà ta’ diversi daqsijiet ta’ mudelli tappoġġja firxa ta’ xenarji ta’ skjerament, minn esperimentazzjoni akkademika fuq ħardwer limitat sa riċerka applikata aktar impenjattiva.

Minħabba li l-mudelli huma rilaxxati taħt il-liċenzja permissiva Apache 2.0 b’piżijiet miftuħa, jistgħu jintużaw liberament, jiġu modifikati, u jiġu rdistribwiti mill-ġdid, u b’hekk isiru aċċessibbli għal komunità wiesgħa inklużi dawk li m’għandhomx aċċess għal APIs proprjetarji tal-mudelli.

Status Kurrenti

Is-serje tal-mudelli Tucano bħalissa hija arkivjata, jiġifieri l-iżvilupp attiv intemm. Il-piżijiet, il-kodiċi, u d-dokumentazzjoni assoċjata jibqgħu aċċessibbli pubblikament permezz tar-repożitorju GitHub tal-proġett għall-iskop ta’ referenza u użu kontinwu mill-komunità tar-riċerka. Il-pubblikazzjoni tar-riżultati f’Patterns fl-2025 tipprovdi rekord rivedut minn pari tal-metodoloġija, tad-data tat-taħriġ, u tar-riżultati tal-evalwazzjoni assoċjati mal-proġett, u b’hekk tappoġġja r-riproduċibbiltà u studju ulterjuri.

Rapport