Tucano
Vstup
Výstup
Kategorie
Témata
Tucano je rodina otevřeně vážených (open-weights) jazykových modelů typu transformer vyvinutá v Brazílii a trénovaná výhradně na textu v portugalštině. Modely byly předtrénované na GigaVerbo, datové sadě přibližně 200 miliard deduplikovaných portugalských tokenů, a jsou dostupné ve čtyřech velikostech od 160 milionů do 2,4 miliardy parametrů.
Upřesněné varianty zahrnují modely určené pro plnění instrukcí a verze optimalizované podle preferencí, a související multimodální deriváty byly vydány pod názvem ViTucano. Tucano je určené pro výzkumníky a vývojáře pracující na úlohách zpracování přirozeného jazyka v portugalštině, jazyce, který byl historicky nedostatečně zastoupen ve vývoji velkých jazykových modelů.
Projekt je zdokumentovaný v článku z roku 2025 publikovaném v časopise Patterns a je vydaný pod licencí Apache 2.0; váhy i kód jsou veřejně dostupné na GitHub. Tato řada modelů je v současnosti archivovaná.
Vývoj a pozadí
Tucano bylo vyvinuto v Brazílii jako cílené úsilí reagovat na nedostatek velkých jazykových modelů trénovaných specificky na portugalský text. Zatímco mnoho významných jazykových modelů se trénuje převážně na anglických korpusech, portugalština—mluvená více než 250 miliony lidí v Brazílii, Portugalsku a dalších zemích—historicky dostávala v oblasti výzkumu základních modelů menší pozornost. Projekt Tucano měl tento rozdíl zacelit vybudováním modelů založených na transformerech od základu pomocí rozsáhlého, vysoce kvalitního portugalského datasetu.
Modely byly předtrénovány na GigaVerbo, korpusu přibližně 200 miliard deduplikovaných portugalských tokenů sestaveného tak, aby podporoval robustní jazykové modelování ve velkém měřítku. Projekt je zdokumentován v článku Tucano: Advancing Neural Text Generation for Portuguese, publikovaném v časopise Patterns v roce 2025, a všechny váhy i trénovací kód jsou veřejně dostupné na GitHubu pod licencí Apache 2.0.
Varianty modelu a jemně doladěné verze
Rodina Tucano zahrnuje čtyři velikosti základních modelů, což umožňuje výzkumníkům a vývojářům vybrat model vhodný pro jejich výpočetní omezení a požadavky úloh:
- Tucano-160m – 160 milionů parametrů
- Tucano-630m – 630 milionů parametrů
- Tucano-1b1 – přibližně 1,1 miliardy parametrů
- Tucano-2b4 – přibližně 2,4 miliardy parametrů
Kromě základních předtrénovaných modelů projekt vytvořil několik jemně doladěných derivátů. Tucano-SFT a Tucano-DPO představují varianty řízeného jemného doladění a přímé optimalizace preferencí, zatímco Tucano-2b4-Instruct je instrukčně orientovaná verze největšího základního modelu. Tyto jemně doladěné verze rozšiřují využitelnost základních modelů směrem k konverzačním a úkolově orientovaným aplikacím.
Související multimodální modely, ViTucano-1b5-v1 a ViTucano-2b8-v1, byly rovněž vydány pod názvem ViTucano, což naznačuje navazující práci, která kombinuje vizuální modality spolu s porozuměním portugalskému textu.
Případy použití a cílové publikum
Tucano je primárně určeno pro výzkumníky a vývojáře pracující na úlohách zpracování přirozeného jazyka v portugalštině. Možné případy použití zahrnují generování textu, benchmarky pro jazykové modelování, jemné doladění pro portugalské aplikace specifické pro danou doménu a jako výzkumný základ pro studium chování modelů v prostředích s nižšími zdroji. Dostupnost více velikostí modelů podporuje škálu scénářů nasazení—od akademických experimentů na omezeném hardwaru až po náročnější aplikovaný výzkum.
Protože jsou modely vydány pod vstřícnou licencí Apache 2.0 s otevřenými váhami, lze je volně používat, upravovat a znovu distribuovat, což je zpřístupňuje široké komunitě včetně těch, kteří nemají přístup k proprietárním modelovým API.
Aktuální stav
Série modelů Tucano je v současnosti archivována, což znamená, že aktivní vývoj skončil. Váhy, kód i související dokumentace zůstávají veřejně dostupné prostřednictvím repozitáře projektu na GitHubu pro účely odkazu a dalšího využití výzkumnou komunitou. Publikace zjištění v Patterns v roce 2025 poskytuje recenzovaný záznam metodologie, trénovacích dat a výsledků vyhodnocení spojených s projektem, čímž podporuje reprodukovatelnost a další studium.