Transformer Apache 2.0 Yes
Português

Wejście

text

Wyjście

text

Tematy

generative ainlpresearch

Tucano to rodzina modeli językowych typu transformer z otwartymi wagami, opracowana w Brazylii i wytrenowana wyłącznie na tekstach w języku portugalskim. Modele zostały wstępnie wytrenowane na GigaVerbo, zbiorze danych obejmującym około 200 miliardów zduplikowanych tokenów w języku portugalskim po deduplikacji, i są dostępne w czterech rozmiarach — od 160 milionów do 2,4 miliarda parametrów.

Dopracowane warianty obejmują wersje dostosowane do podążania za instrukcjami oraz wersje zoptymalizowane pod preferencje, a powiązane pochodne multimodalne zostały wydane pod nazwą ViTucano. Tucano jest przeznaczone dla badaczy i programistów pracujących nad zadaniami przetwarzania języka naturalnego w języku portugalskim — językiem historycznie niedostatecznie reprezentowanym w rozwoju dużych modeli językowych na skalę masową.

Projekt jest udokumentowany w publikacji z 2025 roku w czasopiśmie Patterns i udostępniony na licencji Apache 2.0, przy czym wagi i kod są publicznie dostępne na GitHub. Seria modeli jest obecnie zarchiwizowana.

Tło i rozwój

Tucano zostało opracowane w Brazylii jako celowe przedsięwzięcie mające na celu zaradzenie brakowi dużych modeli językowych trenowanych konkretnie na tekstach w języku portugalskim. Podczas gdy wiele znanych modeli językowych jest trenowanych głównie na korpusach anglojęzycznych, portugalski—używany przez ponad 250 milionów osób w Brazylii, Portugalii i innych krajach—historycznie otrzymywał mniej uwagi w badaniach nad modelami bazowymi. Projekt Tucano miał na celu wypełnienie tej luki poprzez zbudowanie modeli opartych na transformatorach od podstaw, z wykorzystaniem dużego, wysokiej jakości zbioru danych w języku portugalskim.

Modele zostały wstępnie wytrenowane na GigaVerbo, korpusie liczącym około 200 miliardów zduplikowanych tokenów w języku portugalskim, zebranych w celu zapewnienia solidnego modelowania języka na dużą skalę. Projekt jest opisany w pracy Tucano: Advancing Neural Text Generation for Portuguese, opublikowanej w czasopiśmie Patterns w 2025 roku, a wszystkie wagi oraz kod treningowy są publicznie dostępne na GitHubie na licencji Apache 2.0.

Warianty modelu i wersje dostrojone

Rodzina Tucano obejmuje cztery rozmiary bazowych modeli, umożliwiając badaczom i deweloperom wybór modelu odpowiedniego do ich ograniczeń obliczeniowych oraz wymagań zadań:

  • Tucano-160m – 160 milionów parametrów
  • Tucano-630m – 630 milionów parametrów
  • Tucano-1b1 – około 1,1 miliarda parametrów
  • Tucano-2b4 – około 2,4 miliarda parametrów

Oprócz bazowych modeli wstępnie wytrenowanych projekt wytworzył kilka pochodnych dostrojonych. Tucano-SFT i Tucano-DPO reprezentują odpowiednio warianty nadzorowanego dostrajania oraz bezpośredniej optymalizacji preferencji, natomiast Tucano-2b4-Instruct to wersja podążająca za instrukcjami największego modelu bazowego. Te wersje dostrojone rozszerzają użyteczność modeli bazowych w kierunku zastosowań konwersacyjnych i zorientowanych na zadania.

Powiązane modele multimodalne, ViTucano-1b5-v1 i ViTucano-2b8-v1, również zostały wydane pod nazwą ViTucano, co sugeruje prace następcze uwzględniające modalności wizualne obok rozumienia tekstu w języku portugalskim.

Zastosowania i docelowi odbiorcy

Tucano jest przede wszystkim skierowane do badaczy i deweloperów pracujących nad zadaniami przetwarzania języka naturalnego w języku portugalskim. Potencjalne zastosowania obejmują generowanie tekstu, benchmarki modelowania języka, dostrajanie pod kątem zastosowań w określonej dziedzinie w języku portugalskim oraz jako punkt odniesienia w badaniach nad zachowaniem modeli w warunkach języków o niższych zasobach. Dostępność wielu rozmiarów modeli wspiera różne scenariusze wdrożeniowe—od eksperymentów akademickich na ograniczonym sprzęcie po bardziej wymagające badania stosowane.

Ponieważ modele są udostępniane na liberalnej licencji Apache 2.0 z otwartymi wagami, można ich swobodnie używać, modyfikować i redystrybuować, dzięki czemu są dostępne dla szerokiej społeczności, także dla osób niemających dostępu do zastrzeżonych interfejsów API modeli.

Aktualny status

Seria modeli Tucano jest obecnie zarchiwizowana, co oznacza zakończenie aktywnego rozwoju. Wagi, kod oraz powiązana dokumentacja pozostają publicznie dostępne za pośrednictwem repozytorium GitHub projektu do celów odniesienia i dalszego wykorzystania przez społeczność badawczą. Publikacja wyników w Patterns w 2025 roku dostarcza recenzowanego zapisu metodologii, danych treningowych i wyników ewaluacji związanych z projektem, wspierając odtwarzalność i dalsze badania.

Raport