Tucano

Fonas ir kūrimas

Tucano buvo sukurtas Brazilijoje kaip kryptingas darbas siekiant išspręsti didelio masto kalbos modelių trūkumą, specialiai apmokytų portugalių kalbos tekstams. Nors daugelis žymių kalbos modelių yra mokomi daugiausia iš angliškų tekstynų, portugalų kalba, kuria kalba daugiau nei 250 mln. žmonių Brazilijoje, Portugalijoje ir kitose šalyse, istoriškai sulaukdavo mažiau dėmesio fundamentalių modelių tyrimuose. Tucano projektas siekė užpildyti šią spragą nuo pat pradžių kuriant transformatoriais pagrįstus modelius naudojant didelį, aukštos kokybės portugalių kalbos duomenų rinkinį.

Modeliai buvo iš anksto apmokyti naudojant GigaVerbo – maždaug 200 mlrd. dedukuotų portugalių kalbos žetonų tekstyną, surinktą siekiant užtikrinti patikimą kalbos modeliavimą masteliu. Projektas aprašytas straipsnyje Tucano: Advancing Neural Text Generation for Portuguese, išleistame žurnale Patterns 2025 m., o visi svoriai ir mokymo kodas viešai prieinami „GitHub“ pagal Apache 2.0 licenciją.

Modelių variantai ir papildomai apmokytos versijos

Tucano šeima apima keturis bazinių modelių dydžius, leidžiančius tyrėjams ir kūrėjams pasirinkti modelį, tinkamą jų skaičiavimo apribojimams ir užduočių reikalavimams:

Tucano-160m – 160 mln. parametrų
Tucano-630m – 630 mln. parametrų
Tucano-1b1 – maždaug 1,1 mlrd. parametrų
Tucano-2b4 – maždaug 2,4 mlrd. parametrų

Be bazinių iš anksto apmokytų modelių, projektas sukūrė kelias papildomai apmokytas išvestines versijas. Tucano-SFT ir Tucano-DPO atitinkamai reiškia prižiūrimą papildomą mokymą ir tiesioginio preferencijų optimizavimo variantus, o Tucano-2b4-Instruct yra didžiausio bazinio modelio instrukcijų vykdymo versija. Šios papildomai apmokytos versijos praplečia bazinių modelių pritaikomumą pokalbių ir užduotims orientuotoms programoms.

Taip pat buvo išleistos susijusios multimodalinės versijos ViTucano-1b5-v1 ir ViTucano-2b8-v1, pateikiamos pavadinimu ViTucano, o tai rodo tolesnius darbus, kuriuose vizualinės modalumo formos integruojamos kartu su portugalių kalbos supratimu.

Naudojimo atvejai ir numatyta auditorija

Tucano pirmiausia skirtas tyrėjams ir kūrėjams, dirbantiems su natūralios kalbos apdorojimo užduotimis portugalių kalba. Galimi naudojimo atvejai apima teksto generavimą, kalbos modeliavimo vertinimo (benchmark) testus, papildomą mokymą konkrečioms sritims skirtoms portugalių kalbos programoms ir kaip tyrimų bazinį atskaitos tašką modelio elgsenai nagrinėti mažesnių išteklių kalbos aplinkose. Galimybė rinktis iš kelių modelių dydžių palaiko įvairius diegimo scenarijus – nuo akademinių eksperimentų ribotos aparatinės įrangos sąlygomis iki išteklių reikalaujančių taikomųjų tyrimų.

Kadangi modeliai išleidžiami pagal atvirą ir leidžiančią Apache 2.0 licenciją su atvirais svoriais, juos galima laisvai naudoti, modifikuoti ir perskirstyti, todėl jie tampa prieinami plačiai bendruomenei, įskaitant tuos, kurie neturi prieigos prie patentuotų modelių API.

Šiuo metu

Tucano modelių serija šiuo metu yra archyvuota, tai reiškia, kad aktyvus kūrimas baigtas. Svoriai, kodas ir su jais susijusi dokumentacija lieka viešai prieinami per projekto „GitHub“ saugyklą, kad būtų galima naudotis kaip nuoroda ir tęsti tyrimus bendruomenėje. Radinių publikavimas Patterns žurnale 2025 m. pateikia recenzuotą metodikos, mokymo duomenų ir vertinimo rezultatų, susijusių su projektu, įrašą, kuris palaiko atkuriamumą ir tolesnį tyrimą.

Įvestis

Išėjimas

Kategorijos

Temos

Fonas ir kūrimas

Modelių variantai ir papildomai apmokytos versijos

Naudojimo atvejai ir numatyta auditorija

Šiuo metu