Transformer Apache 2.0 Yes
Português

Ieeja

text

Izvades

text

Tēmas

generative ainlpresearch

Tucano ir atvērtā svaru (open-weights) pārveidotāju valodas modeļu saime, kas izstrādāta Brazīlijā un apmācīta tikai uz portugāļu valodas tekstiem. Modeļi tika iepriekš apmācīti ar GigaVerbo — aptuveni 200 miljardu dublikātus noņemošu portugāļu marķieru (tokenu) datkopu — un ir pieejami četros izmēros, sākot no 160 miljoniem līdz 2,4 miljardiem parametru.

Pielāgotās (fine-tuned) versijas ietver uz instrukciju izpildi orientētus modeļus un preferenču optimizētās versijas, un ar tām saistītie multimodālie atvasinājumi tika izlaisti ar ViTucano nosaukumu. Tucano ir paredzēts pētniekiem un izstrādātājiem, kas strādā ar dabiskās valodas apstrādes uzdevumiem portugāļu valodā — valodā, kas vēsturiski ir bijusi nepietiekami pārstāvēta liela mēroga valodas modeļu izstrādē.

Projekts ir dokumentēts 2025. gada rakstā, kas publicēts žurnālā Patterns, un tas ir izlaists saskaņā ar Apache 2.0 licenci; svari un kods ir publiski pieejami vietnē GitHub. Modeļu sērija pašlaik ir arhivēta.

Fons un izstrāde

Tucano tika izstrādāts Brazīlijā kā mērķtiecīgs darbs, lai novērstu lielapjoma valodas modeļu trūkumu, kas būtu apmācīti tieši ar portugāļu valodas tekstu. Lai gan daudzi ievērojami valodas modeļi tiek apmācīti galvenokārt uz angļu valodas korpusiem, portugāļu valoda — ko runā vairāk nekā 250 miljoni cilvēku visā Brazīlijā, Portugālē un citās valstīs — vēsturiski ir saņēmusi mazāku uzmanību pamata modeļu pētniecībā. Tucano projekts bija iecerējis aizpildīt šo plaisu, no nulles veidojot uz transformatoriem balstītus modeļus, izmantojot lielu, augstas kvalitātes portugāļu valodas datu kopu.

Modeļi tika iepriekš apmācīti uz GigaVerbo — aptuveni 200 miljardu deduplikētu portugāļu valodas tokenu korpusu, kas izveidots, lai nodrošinātu robustu valodas modelēšanu mērogā. Projekts ir dokumentēts rakstā Tucano: Advancing Neural Text Generation for Portuguese, kas publicēts žurnālā Patterns 2025. gadā, un visi svari (weights) un apmācības kods ir publiski pieejami vietnē GitHub saskaņā ar Apache 2.0 licenci.

Modeļu varianti un smalki pielāgotās versijas

Tucano saime aptver četrus bāzes modeļu izmērus, ļaujot pētniekiem un izstrādātājiem izvēlēties modeli, kas atbilst viņu skaitļošanas ierobežojumiem un uzdevumu prasībām:

  • Tucano-160m – 160 miljoni parametru
  • Tucano-630m – 630 miljoni parametru
  • Tucano-1b1 – aptuveni 1,1 miljards parametru
  • Tucano-2b4 – aptuveni 2,4 miljardi parametru

Papildus bāzes iepriekš apmācītajiem modeļiem projekts radīja vairākus smalki pielāgotus atvasinājumus. Tucano-SFT un Tucano-DPO attiecīgi ir uzraudzītas smalkās pielāgošanas un tiešās preferenču optimizācijas varianti, savukārt Tucano-2b4-Instruct ir lielākā bāzes modeļa versija, kas seko norādēm. Šīs smalki pielāgotās versijas paplašina bāzes modeļu izmantojamību sarunās un uz uzdevumiem orientētās lietojumprogrammās.

Saistītie multimodālie modeļi ViTucano-1b5-v1 un ViTucano-2b8-v1 tika izlaisti arī ar nosaukumu ViTucano, norādot uz turpmāku darbu, kas ietver vizuālo modalitāti līdzās portugāļu valodas izpratnei.

Lietošanas gadījumi un paredzētā auditorija

Tucano galvenokārt ir paredzēts pētniekiem un izstrādātājiem, kas strādā ar dabiskās valodas apstrādes uzdevumiem portugāļu valodā. Iespējamie lietošanas gadījumi ietver teksta ģenerēšanu, valodas modelēšanas etalonus, smalku pielāgošanu domēnam specifiskām portugāļu valodas lietojumprogrammām, kā arī kā pētniecības bāzes modeli, lai pētītu modeļu uzvedību zema resursa valodu apstākļos. Pieejamība vairākos modeļu izmēros atbalsta dažādus izvietošanas scenārijus — no akadēmiskas eksperimentēšanas ar ierobežotu aparatūru līdz resursietilpīgākai praktiskai pētniecībai.

Tā kā modeļi ir izlaisti ar atļaujošu Apache 2.0 licenci un ar atvērtajiem svariem, tos var brīvi izmantot, modificēt un tālāk izplatīt, padarot tos pieejamus plašai kopienai, tostarp tiem, kuriem nav piekļuves patentētu modeļu API.

Pašreizējais statuss

Tucano modeļu sērija pašlaik ir arhivēta, kas nozīmē, ka aktīvā izstrāde ir noslēgusies. Svari, kods un ar to saistītā dokumentācija joprojām ir publiski pieejami projekta GitHub repozitorijā atsaucei un turpmākai pētniecības kopienas izmantošanai. Atziņu publicēšana Patterns 2025. gadā nodrošina recenzētu metodoloģijas, apmācības datu un izvērtēšanas rezultātu ierakstu, kas atbalsta reproducējamību un turpmāku pētīšanu.

Ziņojums