Tucano

Fons un izstrāde

Tucano tika izstrādāts Brazīlijā kā mērķtiecīgs darbs, lai novērstu lielapjoma valodas modeļu trūkumu, kas būtu apmācīti tieši ar portugāļu valodas tekstu. Lai gan daudzi ievērojami valodas modeļi tiek apmācīti galvenokārt uz angļu valodas korpusiem, portugāļu valoda — ko runā vairāk nekā 250 miljoni cilvēku visā Brazīlijā, Portugālē un citās valstīs — vēsturiski ir saņēmusi mazāku uzmanību pamata modeļu pētniecībā. Tucano projekts bija iecerējis aizpildīt šo plaisu, no nulles veidojot uz transformatoriem balstītus modeļus, izmantojot lielu, augstas kvalitātes portugāļu valodas datu kopu.

Modeļi tika iepriekš apmācīti uz GigaVerbo — aptuveni 200 miljardu deduplikētu portugāļu valodas tokenu korpusu, kas izveidots, lai nodrošinātu robustu valodas modelēšanu mērogā. Projekts ir dokumentēts rakstā Tucano: Advancing Neural Text Generation for Portuguese, kas publicēts žurnālā Patterns 2025. gadā, un visi svari (weights) un apmācības kods ir publiski pieejami vietnē GitHub saskaņā ar Apache 2.0 licenci.

Modeļu varianti un smalki pielāgotās versijas

Tucano saime aptver četrus bāzes modeļu izmērus, ļaujot pētniekiem un izstrādātājiem izvēlēties modeli, kas atbilst viņu skaitļošanas ierobežojumiem un uzdevumu prasībām:

Tucano-160m – 160 miljoni parametru
Tucano-630m – 630 miljoni parametru
Tucano-1b1 – aptuveni 1,1 miljards parametru
Tucano-2b4 – aptuveni 2,4 miljardi parametru

Papildus bāzes iepriekš apmācītajiem modeļiem projekts radīja vairākus smalki pielāgotus atvasinājumus. Tucano-SFT un Tucano-DPO attiecīgi ir uzraudzītas smalkās pielāgošanas un tiešās preferenču optimizācijas varianti, savukārt Tucano-2b4-Instruct ir lielākā bāzes modeļa versija, kas seko norādēm. Šīs smalki pielāgotās versijas paplašina bāzes modeļu izmantojamību sarunās un uz uzdevumiem orientētās lietojumprogrammās.

Saistītie multimodālie modeļi ViTucano-1b5-v1 un ViTucano-2b8-v1 tika izlaisti arī ar nosaukumu ViTucano, norādot uz turpmāku darbu, kas ietver vizuālo modalitāti līdzās portugāļu valodas izpratnei.

Lietošanas gadījumi un paredzētā auditorija

Tucano galvenokārt ir paredzēts pētniekiem un izstrādātājiem, kas strādā ar dabiskās valodas apstrādes uzdevumiem portugāļu valodā. Iespējamie lietošanas gadījumi ietver teksta ģenerēšanu, valodas modelēšanas etalonus, smalku pielāgošanu domēnam specifiskām portugāļu valodas lietojumprogrammām, kā arī kā pētniecības bāzes modeli, lai pētītu modeļu uzvedību zema resursa valodu apstākļos. Pieejamība vairākos modeļu izmēros atbalsta dažādus izvietošanas scenārijus — no akadēmiskas eksperimentēšanas ar ierobežotu aparatūru līdz resursietilpīgākai praktiskai pētniecībai.

Tā kā modeļi ir izlaisti ar atļaujošu Apache 2.0 licenci un ar atvērtajiem svariem, tos var brīvi izmantot, modificēt un tālāk izplatīt, padarot tos pieejamus plašai kopienai, tostarp tiem, kuriem nav piekļuves patentētu modeļu API.

Pašreizējais statuss

Tucano modeļu sērija pašlaik ir arhivēta, kas nozīmē, ka aktīvā izstrāde ir noslēgusies. Svari, kods un ar to saistītā dokumentācija joprojām ir publiski pieejami projekta GitHub repozitorijā atsaucei un turpmākai pētniecības kopienas izmantošanai. Atziņu publicēšana Patterns 2025. gadā nodrošina recenzētu metodoloģijas, apmācības datu un izvērtēšanas rezultātu ierakstu, kas atbalsta reproducējamību un turpmāku pētīšanu.

Ieeja

Izvades

Kategorijas

Tēmas

Fons un izstrāde

Modeļu varianti un smalki pielāgotās versijas

Lietošanas gadījumi un paredzētā auditorija

Pašreizējais statuss