Tucano
Fampidirana
Famoahana
Sokajy
Lohahevitra
Tucano dia fianakavian’ny modely fiteny transformer misokatra lanja (open-weights) novolavolaina tany Brezila ary nampiofanina manokana tamin’ny lahatsoratra amin’ny fiteny portogey. Nofehezina mialoha (pre-train) tamin’ny GigaVerbo ireo modely ireo, izay angon-drakitra ahitana mari-pamantarana portogey voadika indray (deduplicated) manodidina ny 200 miliara, ary misy amin’ny habe efatra izy ireo, manomboka amin’ny 160 tapitrisa ka hatramin’ny 2,4 miliara masontsivana.
Anisan’ny dikan-teny novolavolaina fanampiny (fine-tuned) ny kinova manaraka torolalana sy ny kinova voaofana hifanaraka amin’ny safidy (preference-optimized), ary navoaka ihany koa ireo tarazany multimodal mifandraika amin’izany eo ambanin’ny anarana ViTucano. natao ho an’ny mpikaroka sy mpamorona miasa amin’ny asa fanodinana fiteny voajanahary (natural language processing) amin’ny fiteny portogey i Tucano, fiteny izay tsy dia nisy firy teo amin’ny fampivoarana modely fiteny lehibe tamin’ny tantara.
Voarakitra ao anaty taratasy navoaka tamin’ny 2025 tao amin’ny gazety Patterns ny tetikasa, ary avoaka eo ambanin’ny fahazoan-dàlana Apache 2.0, miaraka amin’ny lanja (weights) sy kaody azo jerena ampahibemaso ao amin’ny GitHub. Efa tehirizina (archived) amin’izao fotoana izao ny andian-modely.
Fiaviana sy Fampandrosoana
Noforonina tany Brezila i Tucano ho ezaka natokana hamahana ny tsy fahampian'ireo maodely fiteny lehibe natao manokana tamin'ny lahatsoratra amin'ny teny Portiogey. Na dia maro aza ireo maodely fiteny malaza no ampiofanina indrindra amin'ny tahirin-teny anglisy, ny Portiogey—tenenin'olona maherin'ny 250 tapitrisa manerana an'i Brezila, Portugal, ary firenena hafa—dia hatramin'izay no tsy dia noraisina firy tamin'ny fikarohana momba ny modely fototra. Nifantoka hanakatona io banga io ny tetikasa Tucano tamin'ny fananganana maodely mifototra amin'ny transformer hatrany am-piandohana, tamin'ny fampiasana tahirin-teny Portiogey lehibe sy avo lenta.
Nampiofanina mialoha ireo maodely tamin'ny GigaVerbo, tahirin-teny ahitana mari-pamantarana Portiogey efa nesorina ny dika mitovy (deduplicated) manodidina ny 200 miliara, natao hanohanana ny fianarana fiteny matanjaka amin'ny ambaratonga lehibe. Voarakitra ao amin'ny taratasy Tucano: Advancing Neural Text Generation for Portuguese ilay tetikasa, navoaka tao amin'ny gazety Patterns tamin'ny 2025, ary misy ampahibemaso ihany koa ny lanja rehetra (weights) sy ny kaody fampiofanana ao amin'ny GitHub eo ambanin'ny fahazoan-dàlana Apache 2.0.
Karazan-Maodely sy Fanatsarana Natao (Fine-Tuned)
Ny fianakavian'i Tucano dia ahitana habe fototra efatra, ahafahan'ny mpikaroka sy ny mpamorona misafidy maodely mifanaraka amin'ny fetra ara-pajinjana ara-kaonty (computational constraints) sy ny fepetra takian'ny asa:
- Tucano-160m – 160 tapitrisa mari-pamantarana (parameters)
- Tucano-630m – 630 tapitrisa mari-pamantarana (parameters)
- Tucano-1b1 – eo amin'ny 1,1 miliara mari-pamantarana (parameters)
- Tucano-2b4 – eo amin'ny 2,4 miliara mari-pamantarana (parameters)
Ankoatra ireo maodely fototra efa nampiofanina mialoha, dia namokatra taranaka maromaro efa nohamafisina (fine-tuned) ihany koa ilay tetikasa. Ny Tucano-SFT sy Tucano-DPO dia maneho ny karazana fanatsarana amin'ny alalan'ny fianarana voafehy (supervised fine-tuning) sy ny fanatsarana amin'ny alalan'ny fanatsarana safidy mivantana (direct preference optimization) tsirairay avy, raha ny Tucano-2b4-Instruct kosa dia kinova manaraka torolàlana (instruction-following) an'ny maodely fototra lehibe indrindra. Ireo kinova fine-tuned ireo dia manitatra ny fampiasana ireo maodely fototra ho amin'ny sehatra ifanakalozan-kevitra (conversational) sy asa mifantoka amin'ny tanjona.
Navoaka ihany koa ireo maodely mifandraika amin'ny fomba fijery maro (multimodal), ViTucano-1b5-v1 sy ViTucano-2b8-v1, teo ambanin'ny anarana ViTucano, ka manondro asa manaraka izay mampiditra fomba fijery (visual modalities) miaraka amin'ny fahatakarana lahatsoratra amin'ny teny Portiogey.
Sehatra Fampiasana sy Mpihaino Kendrena
Tena natao ho an'ny mpikaroka sy mpamorona miasa amin'ny asa fanodinana fiteny voajanahary (natural language processing) amin'ny teny Portiogey i Tucano. Anisan'ny mety ho sehatra ampiasaina ny famokarana lahatsoratra (text generation), mari-pamantarana (benchmarks) amin'ny fianarana fiteny (language modeling), fanatsarana ho an'ny fampiharana manokana amin'ny sehatra iray amin'ny teny Portiogey, ary ho toy ny fototra fikarohana (research baseline) amin'ny fandalinana ny fihetsiky ny maodely amin'ny toe-javatra misy loharano fiteny vitsy. Ny fisian'ny habe maodely maro dia manohana toe-javatra fametrahana isan-karazany, manomboka amin'ny fanandramana akademika amin'ny fitaovana voafetra ka hatramin'ny fikarohana ampiharina mitaky loharano betsaka kokoa.
Satria avoaka eo ambanin'ny fahazoan-dàlana Apache 2.0 izay malalaka (permissive) ireo maodely miaraka amin'ny lanja misokatra (open weights), dia azo ampiasaina malalaka, ovaina, ary zaraina indray izy ireo, ka mahatonga azy ireo ho azon'ny vondrom-piarahamonina midadasika, anisan'izany ireo tsy manana fidirana amin'ny API an'ny maodely tompon'andraikitra (proprietary model APIs).
Toe- Toetra Amin'izao
Efa voatahiry (archived) amin'izao fotoana izao ny andian-maodely Tucano, midika fa nifarana ny fampandrosoana mavitrika. Mbola misy ampahibemaso ny lanja, ny kaody, ary ny antontan-taratasy mifandraika amin'izany amin'ny alalan'ny tahiry GitHub an'ilay tetikasa ho fanondroana sy fampiasana mitohy ataon'ny vondrom-piarahamonina mpikaroka. Ny famoahana ny valin'ny fikarohana tao amin'ny Patterns tamin'ny 2025 dia manome firaketana nodinihina tamin'ny alalan'ny fanamarinam-pahaizana (peer-reviewed) momba ny fomba fiasa, ny angon-drakitra fampiofanana, ary ny valin'ny fanombanana mifandray amin'ilay tetikasa, ka manohana ny famerenana indray (reproducibility) sy ny fandalinana fanampiny.