Transformer Apache 2.0 Yes
Português

Yaykuy

text

Lluqsiy

text

Rikch'aykuna

generative ainlpresearch

Tucano ch’iqchiq (family) k’anchay-llaqta (open-weights) transformer rimay-makina qullqaqa Brasilpi llank’achkasqa, ch’usaqllapi (exclusivamente) rimay-simi (Portuguese) textllata yachachisqa. Qullqaqa pre-entrenasqa kachkan GigaVerbo nisqapi, ch’usaqllapi 200 mil millonesmanta aswan manaraq q’ipichasqa (deduplicated) Portuguese tok’os dataset nisqapi, ichaqa 160 millonesmanta 2.4 billonesman ch’iqichay (parámetros) qhipa (tamaño) ch’usaq (cuatro) ch’iqichaypi tarikun.

K’achun (Fine-tuned) ruwasqa qhipa-variantesqa instrucción-taqiy (instruction-following) y munay-llamkay (preference-optimized) nisqakunata qhawaykuchkan, chaymanta sapaq multimodal ruwasqa (derivados) ViTucano sutiyuq under nisqapi chiqanchasqa kachkan. Tucanoqa yuyaychay (investigadores) y qullqaqa ruwakuna (desarrolladores) munasqanmi kachkan, chaykunaqa Portuguese simipi natural language processing llamkaykunapi llank’ananku, chay simiqa históricamente pisi qhawariy (underrepresented) kachkan hatun escala language model desarrollo nisqapi.

Chay proyectoqa 2025 watapi Patterns nisqa killkapi (journal) willakuy (paper) nisqapi qillqachasqa kachkan, Apache 2.0 licensia under chiqanchasqa, chaymanta ch’aki (pesos) y codeqa GitHubpi p’unchay (públicamente) tarikusqa. Qullqaqa serieqa kay pachapi archiwachasqa kachkan.

Ch’iqiypa yachachiy & Qallariy

Tucanoqa Brasilpi rurayta qallariq, sichusqa munayniykuq llank’aywan, p’unchay p’unchayta qillqaykuna (Portuguese) nisqapi yachachisqa, hatun allin yachay-masiyuq (large-scale) yachaymanta (language models) manaraq aswan achka kachkananpaq. Achka allin yachay-masiyuq modelokunaqa aswanmi English nisqapi qillqaq corpora nisqawan yachachisqa kachkan, chaymi Portuguese—Brasil, Portugal, chaymanta huk nacioneskunapi mas ch’iqi 250 millon runakuna rimaykuchkan—historiapiqa foundation model investigaciónpi manam chayta qhawarqanchu. Tucano proyectoqa chay gap-ta t’inkuchiyta munarqa, transformer-based modelkunata p’achallata qallariypi (ground up) rurarqa, hatun, allin calidadniyuq Portuguese datasetwan.

Modelokuna GigaVerbo nisqapi pre-trained kachkarqa, chaymi taxanqay (deduplicated) Portuguese tokenkunamanta qillqaq 200 billion nisqayuq, hatun escala (scale)pi allin yachachiyta (language modeling) yanapananpaq ruwasqa corpus. Proyectoqa paperpi Tucano: Advancing Neural Text Generation for Portuguese nisqapi, 2025 watapi Patterns journalpi, qillqachisqa; chaymanta tukuy weights nisqakunaqa yachachiy códigoqa GitHubpi Apache 2.0 licenciawan, manaraq p’achayuq (public) kachkan.

Model Variantkuna & Fine-Tuned Versionkuna

Tucano ayllun ch’usku base model tamañota churan, chaymi yachachiqkunaqa y llank’ariqkunaqa munasqankunata, yachachiypaq (computational) limitankunata, y llank’ay maskhayta (task requirements) qhawarispan, munasqan modelta akllayta atinqa:

  • Tucano-160m – 160 millon parametrokuna
  • Tucano-630m – 630 millon parametrokuna
  • Tucano-1b1 – qhipa 1.1 billion parametrokuna
  • Tucano-2b4 – qhipa 2.4 billion parametrokuna

Base pre-trained modelkunaman ch’iqichaspa, proyectoqa iskayllata (several) fine-tuned derivative nisqakunatam ruwarqa. Tucano-SFT y Tucano-DPO nisqakunaqa supervised fine-tuning y direct preference optimization variantkunamanta qhawarisqa, chaymi Tucano-2b4-Instructqa aswan hatun base modelmanta ruwasqa instrucción-ta qhawaykuchkan (instruction-following) version. Kay fine-tuned versionkunaqa base modelkunata, rimay-kuyay (conversational) y llank’ay-llank’ay (task-oriented) aplikasunkunaman, aswan allin apachiyta (utility) qhawachin.

Ch’iqichay (related) multimodal modelkuna, ViTucano-1b5-v1 y ViTucano-2b8-v1, paykunaqa ViTucano sutiyuqman hina, ch’iqichasqa (released) kachkarqa, chaymi downstream llank’aykuna qillqaykuna (Portuguese text understanding) yanapananman, qhawariy (visual modalities) nisqakunata apamuchkananpaq rimayta qhawachin.

Usaykuna & Munaykuna (Intended Audience)

Tucanoqa principalmente apuntaykuchkan yachachiqkunaman y llank’ariqkunaman, Portuguese nisqapi natural language processing llank’aykunata ruwaspa. Munay usaykuna (potential use cases) chaymi text generation, language modeling benchmarkkuna, domain-specific Portuguese aplikasunkunapaq fine-tuning, y aswan mana hatun yachayniyuq (lower-resource) rimaykuna (language settings)pi model comportamiento-ta yachachiypaq investigación baseline hina. Ch’usku model tamaño kachkananqa, deployment (apachiy) escenariokunata qhawayta yanapan, akademik qhawariy (academic experimentation) limited hardwarepi, manaraq hatun yachachiypaq (more resource-intensive) aplicado investigaciónman.

Modelokunaqa permissive Apache 2.0 licenciawan, open weights nisqawan, chiqaqa (released) kachkan, chaymi paykunata mana qhispichiy (freely) munasqayki hina usayta, ch’iqichayta (modify), y hukman churaspa (redistribute) taripayta atinki; chaymi paykunata aswan hatun runakuna, proprietary model APIs nisqaman mana chayanayuqkunaqa, chaymanta qhawarichiyta atinqa.

Kay p’unchaypi Kachkanan (Current Status)

Tucano model serieqa kay p’unchaypi archivado (archived) kachkan, chaymi active desarrollo (active development) tukusqa. Weights, código, y qhipa documentaciónqa proyecto GitHub repositorypi, yachachiypaq qhawariy (reference) y investigación ayllupi qhipa usaypaq, manaraq p’achayuq (publicly accessible) kachkan. 2025 watapi Patterns journalpi qillqachisqa yachaykunaqa, metodología, yachachiy data, y evaluación resultokunata peer-reviewed record hina qhawachin, chaymi reproducibility y aswan qhipa yachaypaq (further study) yanapan.

Willakuy