Tucano
Input
Oħroġ
Kategoriji
Temi
Tucano hija familja ta’ mudelli lingwistiċi transformer b’open-weights żviluppati fil-Brażil u mħarrġa esklussivament fuq test bil-Portugiż. Il-mudelli ġew imħarrġa minn qabel fuq GigaVerbo, sett ta’ data ta’ madwar 200 biljun token Portugiż deduplikati, u huma disponibbli f’erba’ daqsijiet li jvarjaw minn 160 miljun sa 2.4 biljun parametru.
Varjanti mħarrġa b’mod fin jinkludu verżjonijiet li jsegwu l-istruzzjonijiet u verżjonijiet ottimizzati għall-preferenzi, u derivati multimodali relatati ġew rilaxxati taħt l-isem ViTucano. Tucano huwa maħsub għar-riċerkaturi u l-iżviluppaturi li jaħdmu fuq kompiti ta’ pproċessar tal-lingwa naturali bil-Portugiż, lingwa li storikament kienet sottorappreżentata fl-iżvilupp ta’ mudelli lingwistiċi fuq skala kbira.
Il-proġett huwa dokumentat f’artiklu tal-2025 ippubblikat fil-ġurnal Patterns u jinħareġ taħt il-liċenzja Apache 2.0, b’piżijiet u kodiċi disponibbli pubblikament fuq GitHub. Is-serje tal-mudelli bħalissa ġiet arkivjata.
Fond u Żvilupp
Tucano ġie żviluppat fil-Brażil bħala sforz ddedikat biex jindirizza n-nuqqas ta’ mudelli kbar tal-lingwa fuq skala kbira mħarrġa speċifikament fuq test bil-Portugiż. Filwaqt li ħafna mudelli prominenti tal-lingwa huma mħarrġa l-aktar fuq korpi bl-Ingliż, il-Portugiż—mitkellem minn aktar minn 250 miljun persuna fil-Brażil, il-Portugall, u nazzjonijiet oħra—storikament irċieva inqas attenzjoni fir-riċerka tal-mudelli ta’ bażi. Il-proġett Tucano kellu l-għan li jagħlaq din il-lakuna billi jibni mudelli bbażati fuq transformer mill-bidu, bl-użu ta’ dataset kbir u ta’ kwalità għolja bil-Portugiż.
Il-mudelli ġew ippre-trainjati fuq GigaVerbo, korpus ta’ madwar 200 biljun token Portugiż deduplicati, miġbur biex jappoġġja mudellar robust tal-lingwa fuq skala. Il-proġett huwa dokumentat fil-karta Tucano: Advancing Neural Text Generation for Portuguese, ippubblikata fil-ġurnal Patterns fl-2025, u l-piżijiet u l-kodiċi tat-taħriġ kollha huma disponibbli pubblikament fuq GitHub taħt il-liċenzja Apache 2.0.
Varjanti tal-Mudell u Verżjonijiet Imfittxla
Il-familja Tucano tkopri erba’ daqsijiet ta’ mudell bażi, li jippermettu lir-riċerkaturi u lill-iżviluppaturi jagħżlu mudell adattat għall-limitazzjonijiet komputazzjonali tagħhom u r-rekwiżiti tal-kompiti:
- Tucano-160m – 160 miljun parametru
- Tucano-630m – 630 miljun parametru
- Tucano-1b1 – madwar 1.1 biljun parametru
- Tucano-2b4 – madwar 2.4 biljun parametru
Minbarra l-mudelli bażi pre-trainjati, il-proġett ipproduċa diversi derivattivi mħarrġa b’mod imfittx. Tucano-SFT u Tucano-DPO jirrappreżentaw varjanti ta’ supervised fine-tuning u direct preference optimization rispettivament, filwaqt li Tucano-2b4-Instruct hija verżjoni li ssegwi l-istruzzjonijiet tal-akbar mudell bażi. Dawn il-verżjonijiet imfittxla jespandu l-utilità tal-mudelli bażi lejn applikazzjonijiet konversazzjonali u orjentati lejn kompiti.
Mudelli multimodali relatati, ViTucano-1b5-v1 u ViTucano-2b8-v1, ġew rilaxxati wkoll taħt l-isem ViTucano, u b’hekk jissuġġerixxu xogħol downstream li jinkorpora modalitajiet viżivi flimkien mal-fehim tat-test bil-Portugiż.
Każijiet ta’ Użu u Udjenza Maħsuba
Tucano huwa mmirat primarjament lejn riċerkaturi u żviluppaturi li jaħdmu fuq kompiti ta’ pproċessar tal-lingwa naturali bil-Portugiż. Każijiet ta’ użu potenzjali jinkludu ġenerazzjoni ta’ test, benchmarks tal-mudellar tal-lingwa, fine-tuning għal applikazzjonijiet Portugiżi speċifiċi għad-dominju, u bħala bażi ta’ riċerka għall-istudju tal-imġiba tal-mudelli f’ambjenti ta’ lingwi b’riżorsi aktar baxxi. Id-disponibbiltà ta’ diversi daqsijiet ta’ mudelli tappoġġja firxa ta’ xenarji ta’ skjerament, minn esperimentazzjoni akkademika fuq ħardwer limitat sa riċerka applikata aktar impenjattiva.
Minħabba li l-mudelli huma rilaxxati taħt il-liċenzja permissiva Apache 2.0 b’piżijiet miftuħa, jistgħu jintużaw liberament, jiġu modifikati, u jiġu rdistribwiti mill-ġdid, u b’hekk isiru aċċessibbli għal komunità wiesgħa inklużi dawk li m’għandhomx aċċess għal APIs proprjetarji tal-mudelli.
Status Kurrenti
Is-serje tal-mudelli Tucano bħalissa hija arkivjata, jiġifieri l-iżvilupp attiv intemm. Il-piżijiet, il-kodiċi, u d-dokumentazzjoni assoċjata jibqgħu aċċessibbli pubblikament permezz tar-repożitorju GitHub tal-proġett għall-iskop ta’ referenza u użu kontinwu mill-komunità tar-riċerka. Il-pubblikazzjoni tar-riżultati f’Patterns fl-2025 tipprovdi rekord rivedut minn pari tal-metodoloġija, tad-data tat-taħriġ, u tar-riżultati tal-evalwazzjoni assoċjati mal-proġett, u b’hekk tappoġġja r-riproduċibbiltà u studju ulterjuri.