Tucano

Atzeko plana eta garapena

Tucano Brasilen garatu zen ahalegin espezializatu gisa, berez portugesezko testuan entrenatutako eskala handiko hizkuntza-ereduen gabeziaari aurre egiteko. Hizkuntza-eredu nabarmen asko batez ere ingelesezko corpusetan entrenatzen diren arren, portugesak—Brasil, Portugal eta beste herrialde batzuetan 250 milioi pertsona baino gehiagok hitz egiten dutena—historikoki arreta gutxiago jaso du oinarrizko ereduetan egindako ikerketetan. Tucano proiektuak hutsune hori ixtea zuen helburu, behean behetik hasita transformer-oinarritutako ereduak eraikiz, kalitate handiko portugesezko datu multzo handi bat erabilita.

Ereduak GigaVerbo-n aurrez entrenatu ziren, eskala handian hizkuntza-ereduak modu sendoan modelatzeko asmoz osatutako gutxi gorabehera 200 mila milioi token portuges dedublikatu dituen corpusa. Proiektua Tucano: Advancing Neural Text Generation for Portuguese artikuluan dokumentatuta dago, Patterns aldizkarian argitaratua 2025ean, eta pisu guztiak zein entrenamendu-kodea publiko daude GitHub-en, Apache 2.0 lizentziaren pean.

Ereduen aldaerak eta fintzez doitutako bertsioak

Tucano familiak lau oinarrizko eredu- tamaina hartzen ditu, ikertzaileek eta garatzaileek beren muga konputazionaletara eta zeregin-eskakizunetara egokitutako eredu bat hauta dezaten:

Tucano-160m – 160 milioi parametro
Tucano-630m – 630 milioi parametro
Tucano-1b1 – gutxi gorabehera 1,1 mila milioi parametro
Tucano-2b4 – gutxi gorabehera 2,4 mila milioi parametro

Oinarrizko aurrez entrenatutako ereduenez gain, proiektuak hainbat fintzez doitutako deribatu ekoitzi zituen. Tucano-SFT eta Tucano-DPO-k hurrenez hurren fintzez doitze gainbegiratua eta lehentasunen optimizazio zuzeneko aldaerak adierazten dituzte, eta Tucano-2b4-Instruct eredu oinarrizkorik handienaren instrukzioak jarraitzeko bertsioa da. Fintzez doitutako bertsio horiek oinarrizko ereduak erabilgarriago bihurtzen dituzte elkarrizketa- eta zereginetan oinarritutako aplikazioetarako.

Lotutako multimodal ereduak, ViTucano-1b5-v1 eta ViTucano-2b8-v1, ere ViTucano izenarekin kaleratu ziren, portugesezko testua ulertzearekin batera modalitate bisualak barne hartzen dituen ondorengo lan bat iradokiz.

Erabilera-kasuak eta aurreikusitako ikusleak

Tucano batez ere portugesezko hizkuntza-prozesamenduko zereginetan ari diren ikertzaile eta garatzaileentzat dago pentsatuta. Balizko erabilera-kasuak honako hauek dira: testu-sorkuntza, hizkuntza-ereduen erreferentziazko probak, portugesezko aplikazio espezifikotarako fintzez doitzea, eta baliabide gutxiko hizkuntza-inguruneetan ereduaren portaera aztertzeko ikerketa-oinarri gisa. Eredu anitzen erabilgarritasunak hedapen-eszenatoki sorta bat onartzen du, hardware mugatuarekin egindako esperimentazio akademikotik hasi eta baliabide gehiago eskatzen dituen ikerketa aplikatura arte.

Ereduak Apache 2.0 lizentzia permisiboaren pean kaleratzen direnez, pisu irekiekin, libre erabil daitezke, aldatu eta berriro banatu, eta horrek komunitate zabal baterako eskuragarri bihurtzen ditu, eredu propioen APIetara sarbiderik ez dutenentzat ere.

Egungo egoera

Tucano eredu-saila gaur egun artxibatuta dago, hau da, garapen aktiboa amaitu egin da. Pisuak, kodea eta lotutako dokumentazioa publiko izaten jarraitzen dute proiektuaren GitHub biltegiaren bidez, erreferentziarako eta ikerketa-komunitateak jarraitzeko erabilerarako. 2025ean Patternsen aurkikuntzak argitaratzeak proiektuarekin lotutako metodologiaren, entrenamendu-datuen eta ebaluazio-emaitzen peer-review bidezko erregistroa eskaintzen du, erreproduzigarritasuna eta ikerketa gehiago bultzatuz.

Sarrera

Irteera

Kategoriak

Gaiak

Atzeko plana eta garapena

Ereduen aldaerak eta fintzez doitutako bertsioak

Erabilera-kasuak eta aurreikusitako ikusleak

Egungo egoera