Tucano
Įvestis
Išėjimas
Kategorijos
Temos
„Tucano“ yra atviro svorio transformerio kalbos modelių šeima, sukurta Brazilijoje ir išmokyta išimtinai portugališkos kalbos tekstų. Modeliai buvo iš anksto apmokyti naudojant „GigaVerbo“ – maždaug 200 milijardų dedukuotų portugališkų žetonų rinkinį – ir yra prieinami keturių dydžių, nuo 160 milijonų iki 2,4 milijardo parametrų.
Patobulintos versijos apima instrukcijų vykdymui pritaikytus ir pirmenybių optimizuotus modelius, o su jais susiję multimodaliniai dariniai buvo išleisti pavadinimu „ViTucano“. „Tucano“ skirtas tyrėjams ir kūrėjams, dirbantiems natūralios kalbos apdorojimo užduočių srityje portugalių kalba – kalba, istoriškai nepakankamai atstovauta kuriant didelio masto kalbos modelius.
Projektas aprašytas 2025 m. žurnale „Patterns“ paskelbtame straipsnyje ir išleistas pagal „Apache 2.0“ licenciją; svoriai ir kodas viešai prieinami „GitHub“. Ši modelių serija šiuo metu archyvuota.
Fonas ir kūrimas
Tucano buvo sukurtas Brazilijoje kaip kryptingas darbas siekiant išspręsti didelio masto kalbos modelių trūkumą, specialiai apmokytų portugalių kalbos tekstams. Nors daugelis žymių kalbos modelių yra mokomi daugiausia iš angliškų tekstynų, portugalų kalba, kuria kalba daugiau nei 250 mln. žmonių Brazilijoje, Portugalijoje ir kitose šalyse, istoriškai sulaukdavo mažiau dėmesio fundamentalių modelių tyrimuose. Tucano projektas siekė užpildyti šią spragą nuo pat pradžių kuriant transformatoriais pagrįstus modelius naudojant didelį, aukštos kokybės portugalių kalbos duomenų rinkinį.
Modeliai buvo iš anksto apmokyti naudojant GigaVerbo – maždaug 200 mlrd. dedukuotų portugalių kalbos žetonų tekstyną, surinktą siekiant užtikrinti patikimą kalbos modeliavimą masteliu. Projektas aprašytas straipsnyje Tucano: Advancing Neural Text Generation for Portuguese, išleistame žurnale Patterns 2025 m., o visi svoriai ir mokymo kodas viešai prieinami „GitHub“ pagal Apache 2.0 licenciją.
Modelių variantai ir papildomai apmokytos versijos
Tucano šeima apima keturis bazinių modelių dydžius, leidžiančius tyrėjams ir kūrėjams pasirinkti modelį, tinkamą jų skaičiavimo apribojimams ir užduočių reikalavimams:
- Tucano-160m – 160 mln. parametrų
- Tucano-630m – 630 mln. parametrų
- Tucano-1b1 – maždaug 1,1 mlrd. parametrų
- Tucano-2b4 – maždaug 2,4 mlrd. parametrų
Be bazinių iš anksto apmokytų modelių, projektas sukūrė kelias papildomai apmokytas išvestines versijas. Tucano-SFT ir Tucano-DPO atitinkamai reiškia prižiūrimą papildomą mokymą ir tiesioginio preferencijų optimizavimo variantus, o Tucano-2b4-Instruct yra didžiausio bazinio modelio instrukcijų vykdymo versija. Šios papildomai apmokytos versijos praplečia bazinių modelių pritaikomumą pokalbių ir užduotims orientuotoms programoms.
Taip pat buvo išleistos susijusios multimodalinės versijos ViTucano-1b5-v1 ir ViTucano-2b8-v1, pateikiamos pavadinimu ViTucano, o tai rodo tolesnius darbus, kuriuose vizualinės modalumo formos integruojamos kartu su portugalių kalbos supratimu.
Naudojimo atvejai ir numatyta auditorija
Tucano pirmiausia skirtas tyrėjams ir kūrėjams, dirbantiems su natūralios kalbos apdorojimo užduotimis portugalių kalba. Galimi naudojimo atvejai apima teksto generavimą, kalbos modeliavimo vertinimo (benchmark) testus, papildomą mokymą konkrečioms sritims skirtoms portugalių kalbos programoms ir kaip tyrimų bazinį atskaitos tašką modelio elgsenai nagrinėti mažesnių išteklių kalbos aplinkose. Galimybė rinktis iš kelių modelių dydžių palaiko įvairius diegimo scenarijus – nuo akademinių eksperimentų ribotos aparatinės įrangos sąlygomis iki išteklių reikalaujančių taikomųjų tyrimų.
Kadangi modeliai išleidžiami pagal atvirą ir leidžiančią Apache 2.0 licenciją su atvirais svoriais, juos galima laisvai naudoti, modifikuoti ir perskirstyti, todėl jie tampa prieinami plačiai bendruomenei, įskaitant tuos, kurie neturi prieigos prie patentuotų modelių API.
Šiuo metu
Tucano modelių serija šiuo metu yra archyvuota, tai reiškia, kad aktyvus kūrimas baigtas. Svoriai, kodas ir su jais susijusi dokumentacija lieka viešai prieinami per projekto „GitHub“ saugyklą, kad būtų galima naudotis kaip nuoroda ir tęsti tyrimus bendruomenėje. Radinių publikavimas Patterns žurnale 2025 m. pateikia recenzuotą metodikos, mokymo duomenų ir vertinimo rezultatų, susijusių su projektu, įrašą, kuris palaiko atkuriamumą ir tolesnį tyrimą.