Tucano
Antre
Sòti a
Kategori
Tèm
Tucano se yon fanmi modèl lang transfòmatè ki ouvè sou pwa yo, devlope nan Brezil, epi yo antrene sèlman sou tèks ki an lang Pòtigè. Modèl yo te pre-antrene sou GigaVerbo, yon done ki gen anviwon 200 milya token Pòtigè ki deduplike, epi yo disponib nan kat gwosè, sòti de 160 milyon rive 2.4 milya paramèt.
Varyant ki fèk ajiste yo gen ladan vèsyon ki swiv enstriksyon yo ak vèsyon ki optimize preferans, epi yo te pibliye dérivés multimodal ki gen rapò yo anba non ViTucano. Tucano fèt pou chèchè ak devlopè k ap travay sou travay pwosesis lang natirèl an Pòtigè, yon lang ki istorikman pa t byen reprezante nan devlopman gwo modèl lang.
Pwojè a dokimante nan yon papye 2025 ki pibliye nan jounal Patterns, epi li lage anba lisans Apache 2.0, ak pwa yo ansanm ak kòd la disponib piblikman sou GitHub. Seri modèl la kounye a achive.
Istorik ak Devlopman
Tucano te devlope nan Brezil kòm yon efò dedye pou adrese mank modèl lang gwo echèl ki te antrene espesyalman sou tèks an Pòtigè. Pandan ke anpil modèl lang enpòtan yo antrene sitou sou korpus ki an anglè, Pòtigè—ki pale pa plis pase 250 milyon moun atravè Brezil, Pòtigal, ak lòt peyi—te istorikman resevwa mwens atansyon nan rechèch modèl fondasyon. Pwojè Tucano a te vize fèmen diferans sa a lè li bati modèl ki baze sou transformer depi nan kòmansman, avèk yon gwo done Pòtigè ki gen bon jan kalite.
Modèl yo te pre-antrene sou GigaVerbo, yon korpus ki gen apeprè 200 milya token Pòtigè ki te deduplikate, rasanble pou sipòte modèl lang ki solid nan echèl. Pwojè a dokimante nan atik la Tucano: Advancing Neural Text Generation for Portuguese, ki te pibliye nan jounal Patterns an 2025, epi tout pwa yo ansanm ak kòd fòmasyon yo disponib piblikman sou GitHub anba lisans Apache 2.0.
Varyant Modèl ak Vèsyon Fine-Tuned
Fanmi Tucano a kouvri kat gwosè modèl baz, sa ki pèmèt chèchè ak devlopè yo chwazi yon modèl ki adapte ak kontrent kalkil yo ak kondisyon travay yo:
- Tucano-160m – 160 milyon paramèt
- Tucano-630m – 630 milyon paramèt
- Tucano-1b1 – apeprè 1.1 milya paramèt
- Tucano-2b4 – apeprè 2.4 milya paramèt
Anplis modèl baz pre-antrene yo, pwojè a pwodui plizyè dérivatif fine-tuned. Tucano-SFT ak Tucano-DPO reprezante variantes fine-tuning sipèvize ak optimizasyon preferans dirèk, respektivman, alòske Tucano-2b4-Instruct se yon vèsyon ki swiv enstriksyon modèl baz ki pi gwo a. Vèsyon fine-tuned sa yo elaji itilite modèl baz yo pou aplikasyon ki vize konvèsasyon ak travay.
Modèl multimodal ki gen rapò yo, ViTucano-1b5-v1 ak ViTucano-2b8-v1, te lage tou anba non ViTucano, sa ki sijere travay ki vin apre ki enkòpore modalite vizyèl ansanm ak konpreyansyon tèks an Pòtigè.
Ka Itilizasyon ak Odyans Entansyon
Tucano vize prensipalman chèchè ak devlopè k ap travay sou travay pwosesis lang natirèl an Pòtigè. Ka itilizasyon posib yo gen ladan jenerasyon tèks, benchmark modèl lang, fine-tuning pou aplikasyon Pòtigè ki adapte ak domèn espesifik, epi kòm yon baz rechèch pou etidye konpòtman modèl yo nan anviwònman lang ki gen mwens resous. Disponibilite plizyè gwosè modèl sipòte yon seri senaryo deplwaman, soti nan eksperimantasyon akademik sou ekipman ki limite rive nan rechèch aplike ki mande plis resous.
Piske modèl yo lage anba lisans Apache 2.0 ki permissif, ak pwa ki ouvè, yo ka itilize lib, modifye, epi redistribye, sa ki fè yo aksesib pou yon gwo kominote, menm pou moun ki pa gen aksè ak API modèl pwopriyetè.
Estati Kouran
Seri modèl Tucano a kounye a archivé, sa vle di devlopman aktif la fini. Pwa yo, kòd yo, ak dokiman ki asosye yo rete aksesib piblikman atravè depo GitHub pwojè a pou referans ak itilizasyon kontinye pa kominote rechèch la. Piblikasyon rezilta yo nan Patterns an 2025 bay yon dosye ki revize pa parèy sou metodoloji a, done fòmasyon yo, ak rezilta evalyasyon yo ki gen rapò ak pwojè a, sa ki sipòte repwodibilite ak plis etid.