Transformer Apache 2.0 Yes
Português

Sarrera

text

Irteera

text

Gaiak

generative ainlpresearch

Tucano Brasilen garatutako open-weights transformer hizkuntza-ereduen familia bat da, eta portugesez idatzitako testuan soilik trebatuta dago. Ereduak GigaVerbo-n aurrez trebatuta daude, gutxi gorabehera 200 mila milioi token portuges dedublikatu biltzen dituen datu-multzo batean, eta lau tamainatan daude eskuragarri, 160 milioitik 2,4 mila milioi parametroraino.

Doitutako aldaerek jarraibideak betetzeko bertsioak eta lehentasunetan oinarritutako bertsio optimizatuak barne hartzen dituzte, eta erlazionatutako eratorri multimodalak ViTucano izenarekin kaleratu ziren. Tucano portugesez egindako hizkuntza naturalaren prozesamenduko zereginetan diharduten ikertzaile eta garatzaileentzat pentsatuta dago; hizkuntza hori, historikoki, eskala handiko hizkuntza-ereduen garapenean gutxi ordezkatuta egon da.

Proiektua Patterns aldizkarian argitaratutako 2025eko artikulu batean dokumentatuta dago, eta Apache 2.0 lizentziapean kaleratzen da; pisuak eta kodea publiko daude GitHub-en. Eredu-saila gaur egun artxibatuta dago.

Atzeko plana eta garapena

Tucano Brasilen garatu zen ahalegin espezializatu gisa, berez portugesezko testuan entrenatutako eskala handiko hizkuntza-ereduen gabeziaari aurre egiteko. Hizkuntza-eredu nabarmen asko batez ere ingelesezko corpusetan entrenatzen diren arren, portugesak—Brasil, Portugal eta beste herrialde batzuetan 250 milioi pertsona baino gehiagok hitz egiten dutena—historikoki arreta gutxiago jaso du oinarrizko ereduetan egindako ikerketetan. Tucano proiektuak hutsune hori ixtea zuen helburu, behean behetik hasita transformer-oinarritutako ereduak eraikiz, kalitate handiko portugesezko datu multzo handi bat erabilita.

Ereduak GigaVerbo-n aurrez entrenatu ziren, eskala handian hizkuntza-ereduak modu sendoan modelatzeko asmoz osatutako gutxi gorabehera 200 mila milioi token portuges dedublikatu dituen corpusa. Proiektua Tucano: Advancing Neural Text Generation for Portuguese artikuluan dokumentatuta dago, Patterns aldizkarian argitaratua 2025ean, eta pisu guztiak zein entrenamendu-kodea publiko daude GitHub-en, Apache 2.0 lizentziaren pean.

Ereduen aldaerak eta fintzez doitutako bertsioak

Tucano familiak lau oinarrizko eredu- tamaina hartzen ditu, ikertzaileek eta garatzaileek beren muga konputazionaletara eta zeregin-eskakizunetara egokitutako eredu bat hauta dezaten:

  • Tucano-160m – 160 milioi parametro
  • Tucano-630m – 630 milioi parametro
  • Tucano-1b1 – gutxi gorabehera 1,1 mila milioi parametro
  • Tucano-2b4 – gutxi gorabehera 2,4 mila milioi parametro

Oinarrizko aurrez entrenatutako ereduenez gain, proiektuak hainbat fintzez doitutako deribatu ekoitzi zituen. Tucano-SFT eta Tucano-DPO-k hurrenez hurren fintzez doitze gainbegiratua eta lehentasunen optimizazio zuzeneko aldaerak adierazten dituzte, eta Tucano-2b4-Instruct eredu oinarrizkorik handienaren instrukzioak jarraitzeko bertsioa da. Fintzez doitutako bertsio horiek oinarrizko ereduak erabilgarriago bihurtzen dituzte elkarrizketa- eta zereginetan oinarritutako aplikazioetarako.

Lotutako multimodal ereduak, ViTucano-1b5-v1 eta ViTucano-2b8-v1, ere ViTucano izenarekin kaleratu ziren, portugesezko testua ulertzearekin batera modalitate bisualak barne hartzen dituen ondorengo lan bat iradokiz.

Erabilera-kasuak eta aurreikusitako ikusleak

Tucano batez ere portugesezko hizkuntza-prozesamenduko zereginetan ari diren ikertzaile eta garatzaileentzat dago pentsatuta. Balizko erabilera-kasuak honako hauek dira: testu-sorkuntza, hizkuntza-ereduen erreferentziazko probak, portugesezko aplikazio espezifikotarako fintzez doitzea, eta baliabide gutxiko hizkuntza-inguruneetan ereduaren portaera aztertzeko ikerketa-oinarri gisa. Eredu anitzen erabilgarritasunak hedapen-eszenatoki sorta bat onartzen du, hardware mugatuarekin egindako esperimentazio akademikotik hasi eta baliabide gehiago eskatzen dituen ikerketa aplikatura arte.

Ereduak Apache 2.0 lizentzia permisiboaren pean kaleratzen direnez, pisu irekiekin, libre erabil daitezke, aldatu eta berriro banatu, eta horrek komunitate zabal baterako eskuragarri bihurtzen ditu, eredu propioen APIetara sarbiderik ez dutenentzat ere.

Egungo egoera

Tucano eredu-saila gaur egun artxibatuta dago, hau da, garapen aktiboa amaitu egin da. Pisuak, kodea eta lotutako dokumentazioa publiko izaten jarraitzen dute proiektuaren GitHub biltegiaren bidez, erreferentziarako eta ikerketa-komunitateak jarraitzeko erabilerarako. 2025ean Patternsen aurkikuntzak argitaratzeak proiektuarekin lotutako metodologiaren, entrenamendu-datuen eta ebaluazio-emaitzen peer-review bidezko erregistroa eskaintzen du, erreproduzigarritasuna eta ikerketa gehiago bultzatuz.

Salatu