Transformer Apache 2.0 Yes
Português

Ionchur

text

Aschur

text

Téamaí

generative ainlpresearch

Is teaghlach de mhúnlaí teanga claochladáin meáchain oscailte é Tucano, arna fhorbairt sa Bhrasaíl agus arna oiliúint go heisiach ar théacs i dteanga na Portaingéile. Cuireadh na samhlacha réamh-oilte ar GigaVerbo, sraith sonraí de thart ar 200 billiún comhartha Portaingéile dí-dhúbláilte, agus tá siad ar fáil i gceithre mhéid, ó 160 milliún go 2.4 billiún paraiméadar.

I measc na leaganacha arna mionchoigeartú tá leaganacha a leanann treoracha agus leaganacha atá optamaithe le haghaidh tosaíochta, agus eisíodh díorthaigh gaolmhara ilmhódacha faoin ainm ViTucano. Tá Tucano beartaithe do thaighdeoirí agus d’fhorbróirí atá ag obair ar thascanna próiseála teanga nádúrtha sa Phortaingéilis, teanga nach raibh ró-ionadaithe go stairiúil i bhforbairt mhúnlaí teanga ar scála mór.

Tá doiciméadú ar an tionscadal i bpáipéar ó 2025 a foilsíodh san iris Patterns, agus scaoiltear é faoin gceadúnas Apache 2.0, agus tá meáchain agus cód ar fáil go poiblí ar GitHub. Tá an tsraith mhúnlaí cartlannaithe faoi láthair.

Cúlra agus Forbairt

Cuireadh réamh-oiliúint ar na múnlaí ar GigaVerbo, corpas de thart ar 200 billiún comhartha Portaingéilise dí-dhúbláilte a cuireadh le chéile chun samhaltú teanga láidir a chumasú ar scála. Déantar cur síos ar an tionscadal sa pháipéar Tucano: Advancing Neural Text Generation for Portuguese, a foilsíodh san iris Patterns in 2025, agus tá na meáchain agus an cód oiliúna ar fáil go poiblí ar GitHub faoin gceadúnas Apache 2.0.

Leaganacha Múnla agus Leaganacha Fíneáilte

Cuimsíonn teaghlach Tucano ceithre mhéid bhunmhúnla, rud a ligeann do thaighdeoirí agus do fhorbróirí múnla a roghnú atá oiriúnach dá gcuid srianta ríomhaireachta agus dá riachtanais tascanna:

  • Tucano-160m – 160 milliún paraiméadar
  • Tucano-630m – 630 milliún paraiméadar
  • Tucano-1b1 – thart ar 1.1 billiún paraiméadar
  • Tucano-2b4 – thart ar 2.4 billiún paraiméadar

Chomh maith leis na bunmhúnlaí réamh-oilte, d’fhoilsigh an tionscadal roinnt díorthach fineáilte. Léiríonn Tucano-SFT agus Tucano-DPO fine-tiúin faoi mhaoirseacht agus leaganacha optamaithe rogha dírí, faoi seach, agus is leagan treorach é Tucano-2b4-Instruct den bhunmhúnla is mó. Leathnaíonn na leaganacha fineáilte seo úsáid na mbunmhúnlaí i dtreo feidhmchlár comhrá agus atá dírithe ar thascanna.

Scaoileadh samhlacha gaolmhara ilmhódacha, ViTucano-1b5-v1 agus ViTucano-2b8-v1, faoin ainm ViTucano freisin, rud a thugann le tuiscint go bhfuil obair leantach ann a chuimsíonn módúlachtaí amhairc in éineacht le tuiscint ar théacs i bPortaingéilis.

Cásanna Úsáide agus an Lucht Féachana Beartaithe

Dírítear Tucano go príomha ar thaighdeoirí agus ar fhorbróirí atá ag obair ar thascanna próiseála teanga nádúrtha i bPortaingéilis. I measc na gcásanna úsáide féideartha tá giniúint téacs, tagarmharcanna samhaltaithe teanga, fine-tiúin le haghaidh feidhmchlár Portaingéilise atá sainiúil don réimse, agus mar bhunlíne taighde chun iompar an mhúnla a staidéar i suíomhanna teanga le hacmhainní níos ísle. Tacaíonn fáil na n-ilmhéid múnla le raon cásanna imlonnaithe, ó thurgnamh acadúil ar chrua-earraí teoranta go dtí taighde feidhmeach níos déine ó thaobh acmhainní de.

Toisc go scaoiltear na múnlaí faoin gceadúnas Apache 2.0 ceadaithe, le meáchain oscailte, is féidir iad a úsáid go saor, a mhodhnú, agus a athdháileadh, rud a fhágann go bhfuil siad ar fáil do phobal leathan, lena n-áirítear iad siúd nach bhfuil rochtain acu ar APIanna múnla príobháideacha.

Stádas Reatha

Tá sraith mhúnla Tucano cartlannaithe faoi láthair, rud a chiallaíonn gur tháinig deireadh le forbairt ghníomhach. Tá na meáchain, an cód, agus an doiciméadú gaolmhar ar fáil go poiblí fós trí stór GitHub an tionscadail le haghaidh tagartha agus le húsáid leanúnach ag an bpobal taighde. Cuireann foilsiú na dtorthaí in Patterns in 2025 taifead faoi athbhreithniú piaraí ar fáil ar an modheolaíocht, ar na sonraí oiliúna, agus ar na torthaí meastóireachta a bhaineann leis an tionscadal, rud a thacaíonn le hin-atáirgtheacht agus le staidéar breise.

Tuairisc