Tucano

Vývoj a pozadí

Tucano bylo vyvinuto v Brazílii jako cílené úsilí reagovat na nedostatek velkých jazykových modelů trénovaných specificky na portugalský text. Zatímco mnoho významných jazykových modelů se trénuje převážně na anglických korpusech, portugalština—mluvená více než 250 miliony lidí v Brazílii, Portugalsku a dalších zemích—historicky dostávala v oblasti výzkumu základních modelů menší pozornost. Projekt Tucano měl tento rozdíl zacelit vybudováním modelů založených na transformerech od základu pomocí rozsáhlého, vysoce kvalitního portugalského datasetu.

Modely byly předtrénovány na GigaVerbo, korpusu přibližně 200 miliard deduplikovaných portugalských tokenů sestaveného tak, aby podporoval robustní jazykové modelování ve velkém měřítku. Projekt je zdokumentován v článku Tucano: Advancing Neural Text Generation for Portuguese, publikovaném v časopise Patterns v roce 2025, a všechny váhy i trénovací kód jsou veřejně dostupné na GitHubu pod licencí Apache 2.0.

Varianty modelu a jemně doladěné verze

Rodina Tucano zahrnuje čtyři velikosti základních modelů, což umožňuje výzkumníkům a vývojářům vybrat model vhodný pro jejich výpočetní omezení a požadavky úloh:

Tucano-160m – 160 milionů parametrů
Tucano-630m – 630 milionů parametrů
Tucano-1b1 – přibližně 1,1 miliardy parametrů
Tucano-2b4 – přibližně 2,4 miliardy parametrů

Kromě základních předtrénovaných modelů projekt vytvořil několik jemně doladěných derivátů. Tucano-SFT a Tucano-DPO představují varianty řízeného jemného doladění a přímé optimalizace preferencí, zatímco Tucano-2b4-Instruct je instrukčně orientovaná verze největšího základního modelu. Tyto jemně doladěné verze rozšiřují využitelnost základních modelů směrem k konverzačním a úkolově orientovaným aplikacím.

Související multimodální modely, ViTucano-1b5-v1 a ViTucano-2b8-v1, byly rovněž vydány pod názvem ViTucano, což naznačuje navazující práci, která kombinuje vizuální modality spolu s porozuměním portugalskému textu.

Případy použití a cílové publikum

Tucano je primárně určeno pro výzkumníky a vývojáře pracující na úlohách zpracování přirozeného jazyka v portugalštině. Možné případy použití zahrnují generování textu, benchmarky pro jazykové modelování, jemné doladění pro portugalské aplikace specifické pro danou doménu a jako výzkumný základ pro studium chování modelů v prostředích s nižšími zdroji. Dostupnost více velikostí modelů podporuje škálu scénářů nasazení—od akademických experimentů na omezeném hardwaru až po náročnější aplikovaný výzkum.

Protože jsou modely vydány pod vstřícnou licencí Apache 2.0 s otevřenými váhami, lze je volně používat, upravovat a znovu distribuovat, což je zpřístupňuje široké komunitě včetně těch, kteří nemají přístup k proprietárním modelovým API.

Aktuální stav

Série modelů Tucano je v současnosti archivována, což znamená, že aktivní vývoj skončil. Váhy, kód i související dokumentace zůstávají veřejně dostupné prostřednictvím repozitáře projektu na GitHubu pro účely odkazu a dalšího využití výzkumnou komunitou. Publikace zjištění v Patterns v roce 2025 poskytuje recenzovaný záznam metodologie, trénovacích dat a výsledků vyhodnocení spojených s projektem, čímž podporuje reprodukovatelnost a další studium.

Vstup

Výstup

Kategorie

Témata

Vývoj a pozadí

Varianty modelu a jemně doladěné verze

Případy použití a cílové publikum

Aktuální stav