Tucano
Unos
Izlaz
Kategorije
Teme
Tucano je porodica transformacionih jezičkih modela sa otvorenim težinama razvijena u Brazilu i trenirana isključivo na tekstu na portugalskom jeziku. Modeli su prethodno trenirani na GigaVerbo, skupu podataka od približno 200 milijardi deduplikovanih portugalskih tokena, i dostupni su u četiri veličine, od 160 miliona do 2,4 milijarde parametara.
Dodatno doterane varijante uključuju modele prilagođene praćenju instrukcija i verzije optimizovane za preferencije, a povezani multimodalni derivati objavljeni su pod imenom ViTucano. Tucano je namenjen istraživačima i programerima koji rade na zadacima obrade prirodnog jezika na portugalskom jeziku, jeziku koji je istorijski bio nedovoljno zastupljen u razvoju velikih jezičkih modela.
Projekat je dokumentovan u radu iz 2025. objavljenom u časopisu Patterns i objavljen pod licencom Apache 2.0, pri čemu su težine i kod javno dostupni na GitHub-u. Serija modela je trenutno arhivirana.
Позадина и развој
Tucano је развијен у Бразилу као посвећен напор да се одговори на недостатак великих језичких модела обучених искључиво на португалском тексту. Док се многи истакнути језички модели обучавају претежно на корпусима на енглеском језику, португалски — којим говори више од 250 милиона људи у Бразилу, Португалији и другим земљама — историјски је добијао мање пажње у истраживањима темељних модела. Пројекат Tucano је имао за циљ да попуни ту празнину изградњом трансформерских модела од нуле, користећи велики, висококвалитетни португалски скуп података.
Модели су унапред обучавани на GigaVerbo, корпусу од приближно 200 милијарди дедуплицираних португалских токена, састављеном да подржи робусно језичко моделирање у размери. Пројекат је документован у раду Tucano: Advancing Neural Text Generation for Portuguese, објављеном у часопису Patterns 2025. године, а сва тежинска подешавања и код за обуку јавно су доступни на GitHub-у под лиценцом Apache 2.0.
Варијанте модела и дообучене верзије
Породица Tucano обухвата четири основне величине модела, омогућавајући истраживачима и програмерима да изаберу модел који одговара њиховим рачунарским ограничењима и захтевима задатка:
- Tucano-160m – 160 милиона параметара
- Tucano-630m – 630 милиона параметара
- Tucano-1b1 – приближно 1,1 милијарда параметара
- Tucano-2b4 – приближно 2,4 милијарде параметара
Поред основних унапред обучених модела, пројекат је произвео и више дообучених деривата. Tucano-SFT и Tucano-DPO представљају варијанте надгледаног дообучавања и оптимизације директних преференција, респективно, док је Tucano-2b4-Instruct верзија која прати инструкције највећег основног модела. Ове дообучене верзије проширују корисност основних модела ка разговорним и задацима оријентисаним применама.
Сродни мултимодални модели, ViTucano-1b5-v1 и ViTucano-2b8-v1, такође су објављени под именом ViTucano, што указује на рад који у наставку укључује визуелне модалитете заједно са разумевањем португалског текста.
Случајеви употребе и циљна публика
Tucano је првенствено намењен истраживачима и програмерима који раде на задацима обраде природног језика на португалском. Потенцијални случајеви употребе укључују генерисање текста, бенчмаркове за језичко моделирање, дообучавање за доменске португалске примене и као истраживачку базну линију за проучавање понашања модела у окружењима са мање ресурса за језик. Доступност више величина модела подржава различите сценарије примене — од академског експериментисања на ограниченом хардверу до захтевнијег примењеног истраживања.
Пошто су модели објављени под либералном лиценцом Apache 2.0 са отвореним тежинама, могу се слободно користити, модификовати и поново дистрибуирати, чиме постају доступни широј заједници, укључујући и оне који немају приступ власничким API-јима за моделе.
Тренутни статус
Серија модела Tucano је тренутно архивирана, што значи да је активни развој окончан. Тежине, код и пратећа документација остају јавно доступни преко GitHub репозиторијума пројекта ради референци и даље употребе у истраживачкој заједници. Објављивање резултата у Patterns 2025. године пружа запис методологије, података за обуку и резултата евалуације који је рецензирао стручни часопис, подржавајући репродуктивност и даља истраживања.