Tucano

Ozadje in razvoj

Tucano je bil razvit v Braziliji kot predan napor za odpravo pomanjkanja velikih jezikovnih modelov, usposobljenih posebej na portugalskem besedilu. Čeprav je veliko vidnih jezikovnih modelov usposobljenih predvsem na angleških korpusih, je portugalski jezik—ki ga govori več kot 250 milijonov ljudi po Braziliji, Portugalski in drugih državah—v zgodovini prejemal manj pozornosti v raziskavah temeljnih modelov. Projekt Tucano je imel cilj zapolniti to vrzel z izgradnjo transformatorskih modelov od začetka z uporabo velikega, visokokakovostnega portugalskega nabora podatkov.

Modeli so bili predhodno usposobljeni na GigaVerbo, korpusu približno 200 milijard dedupliciranih portugalskih žetonov, sestavljenem za podporo robustnemu jezikovnemu modeliranju v merilu. Projekt je dokumentiran v članku Tucano: Advancing Neural Text Generation for Portuguese, objavljenem v reviji Patterns leta 2025, vse uteži in izvorna koda za usposabljanje pa so javno dostopne na GitHubu pod licenco Apache 2.0.

Različice modelov in dodelane različice

Družina Tucano zajema štiri velikosti osnovnih modelov, kar raziskovalcem in razvijalcem omogoča izbiro modela, primernega njihovim računalniškim omejitvam in zahtevam nalog:

Tucano-160m – 160 milijonov parametrov
Tucano-630m – 630 milijonov parametrov
Tucano-1b1 – približno 1,1 milijarde parametrov
Tucano-2b4 – približno 2,4 milijarde parametrov

Poleg osnovnih predhodno usposobljenih modelov je projekt ustvaril več dodelanih izpeljank. Tucano-SFT in Tucano-DPO predstavljata nadzorovano dodelano usposabljanje oziroma različici neposredne optimizacije preferenc, medtem ko je Tucano-2b4-Instruct različica, ki sledi navodilom, največjega osnovnega modela. Te dodelane različice razširjajo uporabnost osnovnih modelov za pogovorne in nalogam usmerjene aplikacije.

Povezani multimodalni modeli, ViTucano-1b5-v1 in ViTucano-2b8-v1, so bili prav tako izdani pod imenom ViTucano, kar nakazuje nadaljnje delo, ki vključuje vizualne modalnosti skupaj z razumevanjem portugalskega besedila.

Uporabni primeri in predvideno občinstvo

Tucano je predvsem namenjen raziskovalcem in razvijalcem, ki delajo na nalogah obdelave naravnega jezika v portugalskem jeziku. Možni primeri uporabe vključujejo generiranje besedila, merila za jezikovno modeliranje, dodelano usposabljanje za aplikacije v domeni specifičnega portugalskega jezika ter kot raziskovalno izhodišče za preučevanje obnašanja modelov v okoljih z manj razpoložljivimi viri. Razpoložljivost več velikosti modelov podpira različne scenarije uvajanja, od akademskega eksperimentiranja z omejeno strojno opremo do bolj zahtevnih uporabljenih raziskav.

Ker so modeli izdani pod liberalno licenco Apache 2.0 z odprtimi utežmi, jih je mogoče prosto uporabljati, spreminjati in ponovno distribuirati, zaradi česar so dostopni širši skupnosti, tudi tistim, ki nimajo dostopa do lastniških vmesnikov API za modele.

Trenutno stanje

Serija modelov Tucano je trenutno arhivirana, kar pomeni, da se je aktivni razvoj zaključil. Uteži, izvorna koda in pripadajoča dokumentacija ostajajo javno dostopni prek repozitorija GitHub projekta za referenco in nadaljnjo uporabo v raziskovalni skupnosti. Objava ugotovitev v Patterns leta 2025 zagotavlja recenziran zapis metodologije, podatkov za usposabljanje in rezultatov vrednotenja, povezanih s projektom, kar podpira ponovljivost in nadaljnje raziskovanje.

Vhod

Izhod

Kategorije

Teme

Ozadje in razvoj

Različice modelov in dodelane različice

Uporabni primeri in predvideno občinstvo

Trenutno stanje