Tucano
ULAZ
Izlaz
Kategorije
Teme
Tucano je obitelj transformacijskih jezičnih modela s otvorenim težinama razvijenih u Brazilu i treniranih isključivo na tekstu na portugalskom jeziku. Modeli su prethodno trenirani na GigaVerbo, skupu podataka od približno 200 milijardi dedupliciranih portugalskih tokena, a dostupni su u četiri veličine, od 160 milijuna do 2,4 milijarde parametara.
Dorađene varijante uključuju verzije prilagođene praćenju uputa i optimizirane prema preferencijama, a povezani multimodalni derivati objavljeni su pod nazivom ViTucano. Tucano je namijenjen istraživačima i razvojnim inženjerima koji rade na zadacima obrade prirodnog jezika na portugalskom jeziku, jeziku koji je povijesno bio nedovoljno zastupljen u razvoju velikih jezičnih modela.
Projekt je dokumentiran u radu iz 2025. objavljenom u časopisu Patterns te je objavljen pod licencom Apache 2.0, uz javno dostupne težine i kod na GitHubu. Serija modela trenutačno je arhivirana.
Pozadina i razvoj
Tucano je razvijen u Brazilu kao posvećeni napor za rješavanje manjka velikih jezičnih modela treniranih posebno na portugalskom tekstu. Dok se mnogi istaknuti jezični modeli pretežno treniraju na korpusima na engleskom jeziku, portugalski—kojim govori više od 250 milijuna ljudi diljem Brazila, Portugala i drugih zemalja—povijesno je dobivao manje pozornosti u istraživanju temeljnih modela. Projekt Tucano imao je cilj popuniti tu prazninu izgradnjom transformer-baziranih modela od temelja, koristeći velik i visokokvalitetan portugalski skup podataka.
Modeli su prethodno trenirani na GigaVerbu, korpusu od približno 200 milijardi dedupliciranih portugalskih tokena sastavljenih kako bi se podržalo robusno modeliranje jezika u mjerilu. Projekt je dokumentiran u radu Tucano: Advancing Neural Text Generation for Portuguese, objavljenom u časopisu Patterns 2025., a svi utezi i kod za treniranje javno su dostupni na GitHubu pod licencom Apache 2.0.
Varijante modela i fino podešene verzije
Obitelj Tucano obuhvaća četiri veličine osnovnih modela, omogućujući istraživačima i razvojnim inženjerima odabir modela prikladnog svojim računalnim ograničenjima i zahtjevima zadataka:
- Tucano-160m – 160 milijuna parametara
- Tucano-630m – 630 milijuna parametara
- Tucano-1b1 – približno 1,1 milijardu parametara
- Tucano-2b4 – približno 2,4 milijarde parametara
Uz osnovne prethodno trenirane modele, projekt je proizveo nekoliko fino podešenih izvedenica. Tucano-SFT i Tucano-DPO predstavljaju varijante nadziranim fino podešavanjem i izravnom optimizacijom preferencija, dok je Tucano-2b4-Instruct verzija za slijeđenje uputa najvećeg osnovnog modela. Ove fino podešene verzije proširuju iskoristivost osnovnih modela prema konverzacijskim i zadatkovno orijentiranim primjenama.
Povezani multimodalni modeli, ViTucano-1b5-v1 i ViTucano-2b8-v1, također su objavljeni pod nazivom ViTucano, što upućuje na daljnji rad koji uključuje vizualne modalitete uz razumijevanje portugalskog teksta.
Primjeri uporabe i ciljna publika
Tucano je prvenstveno namijenjen istraživačima i razvojnim inženjerima koji rade na zadacima obrade prirodnog jezika na portugalskom. Mogući slučajevi uporabe uključuju generiranje teksta, mjerila za modeliranje jezika, fino podešavanje za portugalske aplikacije specifične za domenu te kao istraživačku osnovu za proučavanje ponašanja modela u okruženjima s jezicima nižih resursa. Dostupnost više veličina modela podržava različite scenarije primjene, od akademskog eksperimentiranja na ograničenom hardveru do zahtjevnijih primijenjenih istraživanja.
Budući da su modeli objavljeni pod dopuštajućom licencom Apache 2.0 s otvorenim utezima, mogu se slobodno koristiti, mijenjati i redistribuirati, čime postaju dostupni široj zajednici, uključujući one koji nemaju pristup vlasničkim API-jima za modele.
Trenutno stanje
Serija Tucano modela trenutno je arhivirana, što znači da je aktivni razvoj završen. Utezi, kod i pripadajuća dokumentacija ostaju javno dostupni putem GitHub repozitorija projekta za referencu i daljnju uporabu u istraživačkoj zajednici. Objavljivanje rezultata u Patterns 2025. pruža recenzirani zapis metodologije, podataka za treniranje i rezultata evaluacije povezanih s projektom, podržavajući ponovljivost i daljnje proučavanje.