Transformer Apache 2.0 Yes
Português

Vhod

text

Izhod

text

Teme

generative ainlpresearch

Tucano je družina odprto-tehtanih (open-weights) jezikovnih modelov na osnovi transformatorjev, razvita v Braziliji in trenirana izključno na besedilih v portugalščini. Modeli so bili predtrenirani na GigaVerbo, naboru podatkov z približno 200 milijardami dedupliciranih portugalskih žetonov, na voljo pa so v štirih velikostih, od 160 milijonov do 2,4 milijarde parametrov.

Dodelane različice vključujejo modele, ki sledijo navodilom, in različice, optimizirane za preferenčne naloge, sorodne multimodalne izpeljanke pa so bile izdane pod imenom ViTucano. Tucano je namenjen raziskovalcem in razvijalcem, ki delajo na nalogah obdelave naravnega jezika v portugalščini, jeziku, ki je bil zgodovinsko premalo zastopan pri razvoju velikih jezikovnih modelov.

Projekt je dokumentiran v članku iz leta 2025, objavljenem v reviji Patterns, in je izdan pod licenco Apache 2.0; uteži in koda so javno dostopne na GitHubu. Serija modelov je trenutno arhivirana.

Ozadje in razvoj

Tucano je bil razvit v Braziliji kot predan napor za odpravo pomanjkanja velikih jezikovnih modelov, usposobljenih posebej na portugalskem besedilu. Čeprav je veliko vidnih jezikovnih modelov usposobljenih predvsem na angleških korpusih, je portugalski jezik—ki ga govori več kot 250 milijonov ljudi po Braziliji, Portugalski in drugih državah—v zgodovini prejemal manj pozornosti v raziskavah temeljnih modelov. Projekt Tucano je imel cilj zapolniti to vrzel z izgradnjo transformatorskih modelov od začetka z uporabo velikega, visokokakovostnega portugalskega nabora podatkov.

Modeli so bili predhodno usposobljeni na GigaVerbo, korpusu približno 200 milijard dedupliciranih portugalskih žetonov, sestavljenem za podporo robustnemu jezikovnemu modeliranju v merilu. Projekt je dokumentiran v članku Tucano: Advancing Neural Text Generation for Portuguese, objavljenem v reviji Patterns leta 2025, vse uteži in izvorna koda za usposabljanje pa so javno dostopne na GitHubu pod licenco Apache 2.0.

Različice modelov in dodelane različice

Družina Tucano zajema štiri velikosti osnovnih modelov, kar raziskovalcem in razvijalcem omogoča izbiro modela, primernega njihovim računalniškim omejitvam in zahtevam nalog:

  • Tucano-160m – 160 milijonov parametrov
  • Tucano-630m – 630 milijonov parametrov
  • Tucano-1b1 – približno 1,1 milijarde parametrov
  • Tucano-2b4 – približno 2,4 milijarde parametrov

Poleg osnovnih predhodno usposobljenih modelov je projekt ustvaril več dodelanih izpeljank. Tucano-SFT in Tucano-DPO predstavljata nadzorovano dodelano usposabljanje oziroma različici neposredne optimizacije preferenc, medtem ko je Tucano-2b4-Instruct različica, ki sledi navodilom, največjega osnovnega modela. Te dodelane različice razširjajo uporabnost osnovnih modelov za pogovorne in nalogam usmerjene aplikacije.

Povezani multimodalni modeli, ViTucano-1b5-v1 in ViTucano-2b8-v1, so bili prav tako izdani pod imenom ViTucano, kar nakazuje nadaljnje delo, ki vključuje vizualne modalnosti skupaj z razumevanjem portugalskega besedila.

Uporabni primeri in predvideno občinstvo

Tucano je predvsem namenjen raziskovalcem in razvijalcem, ki delajo na nalogah obdelave naravnega jezika v portugalskem jeziku. Možni primeri uporabe vključujejo generiranje besedila, merila za jezikovno modeliranje, dodelano usposabljanje za aplikacije v domeni specifičnega portugalskega jezika ter kot raziskovalno izhodišče za preučevanje obnašanja modelov v okoljih z manj razpoložljivimi viri. Razpoložljivost več velikosti modelov podpira različne scenarije uvajanja, od akademskega eksperimentiranja z omejeno strojno opremo do bolj zahtevnih uporabljenih raziskav.

Ker so modeli izdani pod liberalno licenco Apache 2.0 z odprtimi utežmi, jih je mogoče prosto uporabljati, spreminjati in ponovno distribuirati, zaradi česar so dostopni širši skupnosti, tudi tistim, ki nimajo dostopa do lastniških vmesnikov API za modele.

Trenutno stanje

Serija modelov Tucano je trenutno arhivirana, kar pomeni, da se je aktivni razvoj zaključil. Uteži, izvorna koda in pripadajoča dokumentacija ostajajo javno dostopni prek repozitorija GitHub projekta za referenco in nadaljnjo uporabo v raziskovalni skupnosti. Objava ugotovitev v Patterns leta 2025 zagotavlja recenziran zapis metodologije, podatkov za usposabljanje in rezultatov vrednotenja, povezanih s projektom, kar podpira ponovljivost in nadaljnje raziskovanje.

Poročilo