Transformer Apache 2.0 Yes
Português

Invoer

text

Uitvoer

text

Temas

generative ainlpresearch

Tucano is ’n familie oopgewigte-transformator-taalmodelle wat in Brasilië ontwikkel is en uitsluitlik opgelei is op teks in Portugees. Die modelle is vooraf opgelei op GigaVerbo, ’n datastel van ongeveer 200 miljard gedupliseerde Portugese tokens, en is beskikbaar in vier groottes wat wissel van 160 miljoen tot 2,4 miljard parameters.

Fyn-ingestelde variante sluit in weergawes wat instruksies volg en weergawes wat voorkeurgeoptimaliseer is, en verwante multimodale afleidings is onder die naam ViTucano vrygestel. Tucano is bedoel vir navorsers en ontwikkelaars wat natuurlike taalverwerkingstake in Portugees aanpak—’n taal wat histories onderverteenwoordig was in grootskaalse taalmodelontwikkeling.

Die projek word gedokumenteer in ’n 2025-artikel wat in die joernaal Patterns gepubliseer is, en word onder die Apache 2.0-lisensie vrygestel, met gewigte en kode wat publiek beskikbaar is op GitHub. Die modelreeks is tans gearchiveer.

Achtergrond en Ontwikkeling

Tucano is in Brasilië ontwikkel as ’n toegewyde poging om die tekort aan grootskaalse taalmodelle aan te spreek wat spesifiek op Portugese teks opgelei is. Terwyl baie prominente taalmodelle hoofsaaklik op Engelstalige korpora opgelei word, het Portugees—wat deur meer as 250 miljoen mense oor Brasilië, Portugal en ander lande heen gepraat word—histories minder aandag gekry in fondamentmodel-navorsing. Die Tucano-projek het daarop gemik om hierdie gaping te sluit deur transformer-gebaseerde modelle van voor af te bou met behulp van ’n groot, hoëgehalte Portugese datastel.

Die modelle is vooraf opgelei op GigaVerbo, ’n korpus van ongeveer 200 miljard gedupliseerde Portugese tokens wat saamgestel is om robuuste taalmodellering op skaal te ondersteun. Die projek word gedokumenteer in die referaat Tucano: Advancing Neural Text Generation for Portuguese, wat in 2025 in die joernaal Patterns gepubliseer is, en alle gewigte en opleidingskode is publiek beskikbaar op GitHub onder die Apache 2.0-lisensie.

Modelvariante en Fyn-ingestelde weergawes

Die Tucano-familie strek oor vier basismodelgroottes, wat navorsers en ontwikkelaars in staat stel om ’n model te kies wat geskik is vir hul rekenkundige beperkings en taakvereistes:

  • Tucano-160m – 160 miljoen parameters
  • Tucano-630m – 630 miljoen parameters
  • Tucano-1b1 – ongeveer 1,1 miljard parameters
  • Tucano-2b4 – ongeveer 2,4 miljard parameters

Benewens die basies vooraf-opgeleide modelle, het die projek verskeie fyn-ingestelde afleidings opgelewer. Tucano-SFT en Tucano-DPO verteenwoordig onderskeidelik gesuperviseerde fyn-instelling en direkte voorkeur-optimalisering, terwyl Tucano-2b4-Instruct ’n instruksie-volgende weergawe van die grootste basismodel is. Hierdie fyn-ingestelde weergawes brei die bruikbaarheid van die basismodelle uit na gespreks- en taakgerigte toepassings.

Gebruikssake en Beoogde Teikengehoor

Tucano is hoofsaaklik gemik op navorsers en ontwikkelaars wat natuurlike taalverwerkingstake in Portugees doen. Moontlike gebruikssake sluit in teksgenerering, taalmodellering-benchmarks, fyn-instelling vir domein-spesifieke Portugese toepassings, en as ’n navorsingsbasislyn vir die bestudering van modelgedrag in omgewings met laer hulpbronbeskikbaarheid. Die beskikbaarheid van verskeie modelgroottes ondersteun ’n reeks ontplooiingscenario’s, van akademiese eksperimente met beperkte hardeware tot meer hulpbron-intensiewe toegepaste navorsing.

Aangesien die modelle onder die toegeeflike Apache 2.0-lisensie met oop gewigte vrygestel word, kan hulle vrylik gebruik, aangepas en herverdeel word, wat hulle toeganklik maak vir ’n breë gemeenskap, insluitend dié wat nie toegang tot eie model-API’s het nie.

Huidige Status

Die Tucano-modelreeks is tans geargiveer, wat beteken dat aktiewe ontwikkeling beëindig is. Die gewigte, kode en gepaardgaande dokumentasie bly publiek beskikbaar via die projek se GitHub-bewaarplek vir verwysing en voortgesette gebruik deur die navorsingsgemeenskap. Die publikasie van bevindings in Patterns in 2025 bied ’n eweknie-geëvalueerde rekord van die metodologie, opleidingsdata en evaluasieresultate wat met die projek verband hou, wat reproduseerbaarheid en verdere studie ondersteun.

Rapporteer