Transformer Apache 2.0 Yes
Português

Fampidirana

text

Bobimisi

text

Batɛ́mɛ̀

generative ainlpresearch

Tucano ezali libota ya ba modèles ya transformer ya open-weights oyo ebimisami na Brazíli mpe ebongisami kaka na makomi ya lokota ya Português. Ba modèles yango babandaki koteya bango liboso (pre-trained) na GigaVerbo, ensemble ya ba données oyo ezali na maloba ya Português oyo ebimisami lisusu te (deduplicated) pene na mabongo 200 milliards, mpe ezali kokabolama na mikolo minei (sizes) oyo etalaka uta na ba paramètres 160 millions tii na 2,4 milliards.

Ba variantes oyo ebongisami malamu (fine-tuned) ezali na ba versions oyo etambwisaka na mitindo (instruction-following) mpe oyo ebongisami mpo na kopesa matomba na mabongisi ya bolingi (preference-optimized), mpe ba dérivés multimodales oyo etali yango ebimaki lisusu na nkombo ViTucano. Tucano ezali mpo na bakolo ya bolukiluki mpe ba développeurs oyo basalaka misala ya spré ya spré ya koloba (natural language processing) na Português, lokola ezali ndakisa ete lokola yango ezalaki ntango nyonso kolimbolama te mingi na bokeli ya ba modèles ya minene ya lokola (large-scale language model development).

Projet yango ekomami mpe ebimaki na mokanda ya 2025 oyo ebimaki na jurnal Patterns, mpe ebimaka na lisansi Apache 2.0, na ba poids mpe code oyo ezali na biso te (publicly available) na GitHub. Série ya ba modèles ezali sik’oyo kobombama (archived).

Motema mpe Bokeli

Tucano ekelamaki na Brazili lokola mosala ya kolɔngɔlɔngɔ mpo na kosilisa bolɛmbu ya ba modèles ya minene ya makasi oyo ebongisamaki mpenza mpo na makomi ya Lingala te, kasi mpo na makomi ya Kiperu. Wana ba modèles mingi ya lokumu ebongisamaka mingi koleka na ba corpus ya lokota ya Angleterre, Lingala—oyo balobaka na bango koleka million 250 na Brazili, Portugal, mpe bikolo mosusu—ezalaki tango nyonso kozwa likebisi moke te na bolukiluki ya ba modɛlɛ ya base. Projet Tucano ezalaki na mokano ya kokɔtisa libɔndisi na likambo yango na kotonga ba modèles ya transformer kobanda na ebandeli, kosalelaka dataset ya monene mpe ya qualité ya malamu ya Lingala.

Ba modèles ebongisamaki liboso na GigaVerbo, corpus oyo ezali na ba token ya Lingala oyo ebimisami lisusu te, pene na 200 milliard, oyo babongisaki mpo na kosunga formation ya maloba ya makasi na niveau ya monene. Projet yango ekomami na bapapye Tucano: Advancing Neural Text Generation for Portuguese, oyo ebimaki na nimero ya Patterns na 2025, mpe ba poids nyonso mpe code ya formation ezali na ndenge ya libɔkɔ mpo na bato nyonso na GitHub na lisansi Apache 2.0.

Ba Variantes ya Modɛlɛ mpe Ba Version oyo Ebongisamaki Malamu

Famili ya Tucano ezali na mikolo minei ya ba modɛlɛ ya base, mpe yango epesaka balukiluki mpe ba développeurs nzela ya kopona modɛlɛ oyo ebongi mpo na makoki na bango ya kosala mpe bamposa ya mosala:

  • Tucano-160m – ba paramètres million 160
  • Tucano-630m – ba paramètres million 630
  • Tucano-1b1 – pene na ba paramètres milliard 1.1
  • Tucano-2b4 – pene na ba paramètres milliard 2.4

Longola na ba modɛlɛ ya base oyo ebongisamaki liboso, projet yango esalaki mpe ba dérivés mingi oyo ebongisamaki malamu. Tucano-SFT mpe Tucano-DPO ezali ba variantes ya supervised fine-tuning mpe ya direct preference optimization na ndenge moko, nzokande Tucano-2b4-Instruct ezali version oyo elandaka malako ya modɛlɛ ya monene koleka ya base. Ba version oyo ebongisamaki malamu elongisaka makoki ya ba modɛlɛ ya base mpo na kosalela na makambo ya kolobela na bato mpe ya mosala oyo esengaka kotalela mposa.

Ba modɛlɛ ya multimodal oyo etali makambo mosusu, ViTucano-1b5-v1 mpe ViTucano-2b8-v1, mpe babimisaki lisusu na nkombo ViTucano, mpe yango emonisa mosala oyo ekoya na se oyo ekɔtisaka ba modalités ya bililingi elongo na koyeba makomi ya Lingala.

Ba Cas ya Kosalela mpe Bato oyo Ezali Mpo na bango

Tucano ezali libosoliboso mpo na balukiluki mpe ba développeurs oyo basalaka misala ya natural language processing na Lingala. Ba cas oyo ekoki kosalela ezali génération ya makomi, benchmarks ya language modeling, fine-tuning mpo na ba application ya Lingala oyo etali domaine moko boye, mpe lokola base ya bolukiluki mpo na kotala ndenge oyo modɛlɛ esalaka na bisika oyo ezali na biloko moke ya lokota. Kobimisa ba tailles mingi ya modɛlɛ esalisaka mpo na ba scénarios ndenge na ndenge ya deployment, kobanda na bolukiluki ya akademi na hardware oyo ezali na makoki moke kino na bolukiluki ya pratique oyo esengaka makoki mingi.

Lokola ba modɛlɛ ebimisi na lisansi Apache 2.0 oyo epesaka libɔkɔ mingi, elongo na ba poids oyo ekoki kozwa, bakoki kosalela yango ndenge nyonso, kobongisa yango, mpe kotinda yango lisusu, mpe yango esalaka ete ezala accessible na communauté monene, ata mpe mpo na ba oyo bazali na mposa te ya kozwa nzela na ba API ya modɛlɛ oyo ezali propriété.

Status ya Sik’oyo

Seri ya modɛlɛ Tucano ezali sik’oyo na archive, elingi koloba ete développement actif ekomi suka. Ba poids, code, mpe documentation oyo etali yango nyonso ezali naino na ndenge ya libɔkɔ mpo na bato nyonso na nzela ya repository ya GitHub ya projet mpo na kotala lisusu mpe kosalela lisusu na bolukiluki ya communauté. Kobimisa makambo oyo balukaki na yango na Patterns na 2025 epesaka dosye oyo ekangami na revue ya ba pairs ya méthodologie, ba données ya formation, mpe ba résultats ya évaluation oyo etali projet yango, mpe yango esalisaka mpo na kozongisa ndenge ya kosala mpe bolukiluki mosusu.

Rapɔr