Transformer Apache 2.0 Yes
Português

Ingizo

text

Matokeo

text

Mandhari

generative ainlpresearch

Tucano ni familia ya mifano ya lugha ya transformer yenye uzito wa wazi iliyotengenezwa nchini Brazil na kufundishwa kwa maandiko ya lugha ya Kireno pekee. Mifano hizo zilifundishwa awali kwenye GigaVerbo, seti ya data yenye takriban tokeni bilioni 200 za Kireno zisizorudiwa, na zinapatikana katika saizi nne zinazotofautiana kutoka milioni 160 hadi bilioni 2.4.

Tofauti zilizoboreshwa zinajumuisha toleo linalofuata maagizo na toleo lililoboresha kulingana na upendeleo, na derivatives zinazohusiana za multimodal zilitolewa chini ya jina la ViTucano. Tucano inakusudia kwa watafiti na wabunifu wanaofanya kazi kwenye kazi za usindikaji wa lugha asilia kwa Kireno, lugha ambayo kihistoria imewakilishwa kidogo katika maendeleo ya mifano ya lugha kwa kiwango kikubwa.

Mradi umeandikwa katika karatasi ya mwaka wa 2025 iliyochapishwa kwenye jarida la Patterns na umeachiliwa chini ya leseni ya Apache 2.0, huku uzito na msimbo ukiwa upatikanaji wa umma kwenye GitHub. Mfululizo wa mifano kwa sasa umehifadhiwa.

Historia na Maendeleo

Tucano ilitengenezwa nchini Brazil kama juhudi maalum ya kushughulikia upungufu wa mifano mikubwa ya lugha iliyofundishwa hasa kwa maandiko ya Kireno. Wakati mifano mingi maarufu ya lugha inafundishwa hasa kwa makundi ya maandiko ya Kiingereza, Kireno—kinachozungumzwa na zaidi ya watu milioni 250 nchini Brazil, Ureno, na mataifa mengine—historically imepata umakini mdogo katika utafiti wa mifano ya msingi. Mradi wa Tucano ulilenga kufunga pengo hili kwa kujenga mifano ya msingi ya transformer kutoka mwanzo kwa kutumia seti kubwa ya data ya Kireno ya ubora wa juu.

Mifano ilifundishwa awali kwenye GigaVerbo, kundi la takriban tokeni bilioni 200 za Kireno zisizojirudia zilizokusanywa kusaidia uundaji wa lugha thabiti kwa kiwango kikubwa. Mradi umeandikwa katika karatasi Tucano: Kuendeleza Uundaji wa Maandishi ya Neva kwa Kireno, iliyochapishwa katika jarida la Patterns mwaka 2025, na uzito wote na msimbo wa mafunzo unapatikana hadharani kwenye GitHub chini ya leseni ya Apache 2.0.

Tofauti za Mifano na Matoleo Yaliyoimarishwa

Familia ya Tucano inajumuisha ukubwa nne za mifano ya msingi, ikiruhusu watafiti na wabunifu kuchagua mfano unaofaa kwa vikwazo vyao vya kompyuta na mahitaji ya kazi:

  • Tucano-160m – parameta milioni 160
  • Tucano-630m – parameta milioni 630
  • Tucano-1b1 – takriban parameta bilioni 1.1
  • Tucano-2b4 – takriban parameta bilioni 2.4

Mbali na mifano ya msingi iliyofundishwa awali, mradi ulizalisha derivatives kadhaa zilizoboreshwa. Tucano-SFT na Tucano-DPO zinawakilisha toleo la uboreshaji lililoongozwa na moja kwa moja la upendeleo mtawalia, wakati Tucano-2b4-Instruct ni toleo linalofuata maagizo la mfano mkubwa zaidi wa msingi. Matoleo haya yaliyoimarishwa yanapanua matumizi ya mifano ya msingi kuelekea matumizi ya mazungumzo na yanayolenga kazi.

Mifano inayohusiana ya multimodal, ViTucano-1b5-v1 na ViTucano-2b8-v1, pia ilitolewa chini ya jina la ViTucano, ikionyesha kazi za chini zinazojumuisha mitindo ya kuona pamoja na uelewa wa maandiko ya Kireno.

Matumizi na Walengwa Walio Kusudiwa

Tucano inawalenga hasa watafiti na wabunifu wanaofanya kazi kwenye kazi za usindikaji wa lugha asilia kwa Kireno. Matumizi yanayowezekana ni pamoja na uundaji wa maandiko, viwango vya uundaji wa lugha, uboreshaji kwa matumizi maalum ya Kireno, na kama msingi wa utafiti wa kuchunguza tabia za mfano katika mazingira ya lugha zenye rasilimali chache. Upatikanaji wa ukubwa mbalimbali wa mifano unasaidia hali mbalimbali za matumizi, kutoka majaribio ya kitaaluma kwenye vifaa vya chini hadi utafiti wa matumizi unaohitaji rasilimali zaidi.

Kwa sababu mifano inatolewa chini ya leseni ya huruhusu ya Apache 2.0 yenye uzito wazi, zinaweza kutumika, kubadilishwa, na kusambazwa bure, na kuifanya iweze kupatikana kwa jamii kubwa ikiwa ni pamoja na wale wasiokuwa na ufikiaji wa API za mifano ya miliki.

Hali ya Sasa

Mfululizo wa mifano ya Tucano kwa sasa umehifadhiwa, ikimaanisha kuwa maendeleo ya moja kwa moja yamekamilika. Uzito, msimbo, na nyaraka zinazohusiana zinabaki kupatikana hadharani kupitia hazina ya GitHub ya mradi kwa ajili ya rejeleo na matumizi endelevu na jamii ya utafiti. Uch publication wa matokeo katika Patterns mwaka 2025 unatoa rekodi iliyopitiwa na wenzao ya mbinu, data za mafunzo, na matokeo ya tathmini yanayohusiana na mradi, ikisaidia kurudiwa na utafiti zaidi.

Ripoti