Tucano

Pozadina i razvoj

Tucano je razvijen u Brazilu kao posvećeni napor za rješavanje manjka velikih jezičnih modela treniranih posebno na portugalskom tekstu. Dok se mnogi istaknuti jezični modeli pretežno treniraju na korpusima na engleskom jeziku, portugalski—kojim govori više od 250 milijuna ljudi diljem Brazila, Portugala i drugih zemalja—povijesno je dobivao manje pozornosti u istraživanju temeljnih modela. Projekt Tucano imao je cilj popuniti tu prazninu izgradnjom transformer-baziranih modela od temelja, koristeći velik i visokokvalitetan portugalski skup podataka.

Modeli su prethodno trenirani na GigaVerbu, korpusu od približno 200 milijardi dedupliciranih portugalskih tokena sastavljenih kako bi se podržalo robusno modeliranje jezika u mjerilu. Projekt je dokumentiran u radu Tucano: Advancing Neural Text Generation for Portuguese, objavljenom u časopisu Patterns 2025., a svi utezi i kod za treniranje javno su dostupni na GitHubu pod licencom Apache 2.0.

Varijante modela i fino podešene verzije

Obitelj Tucano obuhvaća četiri veličine osnovnih modela, omogućujući istraživačima i razvojnim inženjerima odabir modela prikladnog svojim računalnim ograničenjima i zahtjevima zadataka:

Tucano-160m – 160 milijuna parametara
Tucano-630m – 630 milijuna parametara
Tucano-1b1 – približno 1,1 milijardu parametara
Tucano-2b4 – približno 2,4 milijarde parametara

Uz osnovne prethodno trenirane modele, projekt je proizveo nekoliko fino podešenih izvedenica. Tucano-SFT i Tucano-DPO predstavljaju varijante nadziranim fino podešavanjem i izravnom optimizacijom preferencija, dok je Tucano-2b4-Instruct verzija za slijeđenje uputa najvećeg osnovnog modela. Ove fino podešene verzije proširuju iskoristivost osnovnih modela prema konverzacijskim i zadatkovno orijentiranim primjenama.

Povezani multimodalni modeli, ViTucano-1b5-v1 i ViTucano-2b8-v1, također su objavljeni pod nazivom ViTucano, što upućuje na daljnji rad koji uključuje vizualne modalitete uz razumijevanje portugalskog teksta.

Primjeri uporabe i ciljna publika

Tucano je prvenstveno namijenjen istraživačima i razvojnim inženjerima koji rade na zadacima obrade prirodnog jezika na portugalskom. Mogući slučajevi uporabe uključuju generiranje teksta, mjerila za modeliranje jezika, fino podešavanje za portugalske aplikacije specifične za domenu te kao istraživačku osnovu za proučavanje ponašanja modela u okruženjima s jezicima nižih resursa. Dostupnost više veličina modela podržava različite scenarije primjene, od akademskog eksperimentiranja na ograničenom hardveru do zahtjevnijih primijenjenih istraživanja.

Budući da su modeli objavljeni pod dopuštajućom licencom Apache 2.0 s otvorenim utezima, mogu se slobodno koristiti, mijenjati i redistribuirati, čime postaju dostupni široj zajednici, uključujući one koji nemaju pristup vlasničkim API-jima za modele.

Trenutno stanje

Serija Tucano modela trenutno je arhivirana, što znači da je aktivni razvoj završen. Utezi, kod i pripadajuća dokumentacija ostaju javno dostupni putem GitHub repozitorija projekta za referencu i daljnju uporabu u istraživačkoj zajednici. Objavljivanje rezultata u Patterns 2025. pruža recenzirani zapis metodologije, podataka za treniranje i rezultata evaluacije povezanih s projektom, podržavajući ponovljivost i daljnje proučavanje.

ULAZ

Izlaz

Kategorije

Teme

Pozadina i razvoj

Varijante modela i fino podešene verzije

Primjeri uporabe i ciljna publika

Trenutno stanje