Transformer Apache 2.0 Yes
Português

Tulo

text

Lähtö

text

Teemat

generative ainlpresearch

Tucano on Brasiliassa kehitetty avoimien painojen transformer-kielimallien perhe, joka on koulutettu yksinomaan portugalinkielisestä tekstistä. Mallit esikoulutettiin GigaVerbo-aineistolla, noin 200 miljardin deduplikointiin perustuvan portugalinkielisen tokenin kokoisella aineistolla, ja niitä on saatavilla neljässä koossa, 160 miljoonasta 2,4 miljardiin parametriin.

Hienosäädettyihin muunnelmiin kuuluvat ohjeita seuraavat ja mieltymyksiin optimoidut versiot, ja niihin liittyviä multimodaalisia johdannaisia julkaistiin ViTucano-nimellä. Tucanoa on tarkoitettu tutkijoille ja kehittäjille, jotka työskentelevät portugalinkielisen luonnollisen kielen käsittelyn tehtävien parissa — kieltä, jota on historiallisesti ollut aliedustettuna suurimittaisessa kielimallikehityksessä.

Hanke on dokumentoitu vuoden 2025 artikkelissa, joka on julkaistu lehdessä Patterns, ja se julkaistaan Apache 2.0 -lisenssillä. Painot ja koodi ovat julkisesti saatavilla GitHubissa. Mallisarja on tällä hetkellä arkistoitu.

Tausta ja kehitys

Tucano kehitettiin Brasiliassa omistautuneena hankkeena vastaamaan suurten kielimallien puutteeseen, jotka on koulutettu nimenomaan portugalinkielisellä tekstillä. Vaikka monet merkittävät kielimallit koulutetaan pääasiassa englanninkielisillä aineistoilla, portugali—jota puhuu yli 250 miljoonaa ihmistä Brasiliassa, Portugalissa ja muissa maissa—on historiallisesti saanut vähemmän huomiota perusmallitutkimuksessa. Tucano-hankkeen tavoitteena oli kuroa tämä kuilu umpeen rakentamalla transformer-pohjaisia malleja alusta alkaen käyttäen suurta, korkealaatuista portugalinkielistä aineistoa.

Mallit esikoulutettiin GigaVerbo-aineistolla, noin 200 miljardin deduplikoinnin läpikäyneellä portugalinkielisellä tokenilla koostuvalla korpuksella, joka koottiin tukemaan vankkaa kielimallinnusta mittakaavassa. Hanke on dokumentoitu artikkelissa Tucano: Advancing Neural Text Generation for Portuguese, joka julkaistiin lehdessä Patterns vuonna 2025, ja kaikki painot sekä koulutusohjelmakoodi ovat julkisesti saatavilla GitHubissa Apache 2.0 -lisenssillä.

Mallivaihtoehdot ja hienosäädetyt versiot

Tucano-perhe kattaa neljä perusmallin kokoa, joiden avulla tutkijat ja kehittäjät voivat valita tehtävään ja laskennallisiin rajoitteisiin sopivan mallin:

  • Tucano-160m – 160 miljoonaa parametria
  • Tucano-630m – 630 miljoonaa parametria
  • Tucano-1b1 – noin 1,1 miljardia parametria
  • Tucano-2b4 – noin 2,4 miljardia parametria

Perus-esikoulutettujen mallien lisäksi hankkeessa tuotettiin useita hienosäädettyjä johdannaisia. Tucano-SFT ja Tucano-DPO edustavat vastaavasti ohjattua hienosäätöä ja suoraa preferenssien optimointia, kun taas Tucano-2b4-Instruct on suurimman perusmallin ohjeita seuraava versio. Nämä hienosäädetyt versiot laajentavat perusmallien hyödyllisyyttä keskustelullisiin ja tehtäväkeskeisiin sovelluksiin.

Myös toisiinsa liittyviä multimodaalisia malleja, ViTucano-1b5-v1 ja ViTucano-2b8-v1, julkaistiin ViTucano-nimellä, mikä viittaa jatkotyöhön, jossa visuaalisia ominaisuuksia hyödynnetään portugalinkielisen tekstin ymmärtämisen rinnalla.

Käyttötapaukset ja kohdeyleisö

Tucano on ensisijaisesti tarkoitettu tutkijoille ja kehittäjille, jotka työskentelevät luonnollisen kielen käsittelyn tehtävien parissa portugaliksi. Mahdollisia käyttötapauksia ovat tekstin generointi, kielimallinnuksen vertailumittarit, hienosäätö toimialakohtaisiin portugalinkielisiin sovelluksiin sekä tutkimuksen lähtökohtana mallikäyttäytymisen tutkimiseen matalamman resurssitason kieliympäristöissä. Useiden mallikokojen saatavuus tukee monenlaisia käyttöönotto- ja toteutusskenaarioita akateemisesta kokeilusta rajallisella laitteistolla aina resurssintensiivisempään soveltavaan tutkimukseen.

Koska mallit julkaistaan sallivalla Apache 2.0 -lisenssillä avoimilla painoilla, niitä voidaan käyttää vapaasti, muokata ja jakaa uudelleen, mikä tekee niistä saavutettavia laajalle yhteisölle myös niille, joilla ei ole pääsyä suljettuihin mallien sovellusrajapintoihin.

Nykytilanne

Tucano-mallisarja on tällä hetkellä arkistoitu, mikä tarkoittaa, että aktiivinen kehitystyö on päättynyt. Painot, koodi ja niihin liittyvä dokumentaatio ovat edelleen julkisesti saatavilla projektin GitHub-arkistossa viite- ja tutkimuskäyttöä varten. Tulosten julkaiseminen Patterns-lehdessä vuonna 2025 tarjoaa vertaisarvioidun tallenteen hankkeeseen liittyvästä menetelmästä, koulutusaineistosta ja arviointituloksista, mikä tukee toistettavuutta ja jatkotutkimusta.

Raportti