Tucano

Позадина и развој

Tucano беше развиен во Бразил како посветен напор за да се адресира недостигот на големи јазични модели обучени конкретно на португалски текст. Додека многу истакнати јазични модели се обучуваат претежно на англиски корпуси, португалскиот — кој го зборуваат над 250 милиони луѓе низ Бразил, Португалија и други земји — историски добиваше помалку внимание во истражувањето на основни модели. Проектот Tucano имаше за цел да ја затвори оваа празнина со градење трансформерски модели од темел, користејќи голем, висококвалитетен португалски податочен сет.

Моделите беа претходно обучени на GigaVerbo, корпус од приближно 200 милијарди дедуплицирани португалски токени составен за поддршка на робусно моделирање на јазик во размер. Проектот е документиран во трудот Tucano: Advancing Neural Text Generation for Portuguese, објавен во списанието Patterns во 2025 година, а сите тежини и код за обука се јавно достапни на GitHub под лиценцата Apache 2.0.

Варијанти на моделот и фино-прилагодени верзии

Семејството Tucano опфаќа четири основни големини на модели, овозможувајќи им на истражувачите и развивачите да изберат модел соодветен на нивните пресметковни ограничувања и барања на задачите:

Tucano-160m – 160 милиони параметри
Tucano-630m – 630 милиони параметри
Tucano-1b1 – приближно 1,1 милијарда параметри
Tucano-2b4 – приближно 2,4 милијарди параметри

Покрај основните претходно обучени модели, проектот произведе неколку фино-прилагодени деривати. Tucano-SFT и Tucano-DPO претставуваат соодветно варијанти за надгледувано фино-прилагодување и оптимизација на директни преференци, додека Tucano-2b4-Instruct е верзија што следи инструкции на најголемиот основен модел. Овие фино-прилагодени верзии ја прошируваат применливоста на основните модели кон разговорни и ориентирани кон задачи апликации.

Поврзани мултимодални модели, ViTucano-1b5-v1 и ViTucano-2b8-v1, исто така беа објавени под името ViTucano, што укажува на понатамошна работа што вклучува визуелни модалитети заедно со разбирање на португалски текст.

Употребни случаи и наменета публика

Tucano првенствено е наменет за истражувачи и развивачи кои работат на задачи за обработка на природен јазик на португалски. Потенцијални употребни случаи вклучуваат генерирање текст, бенчмаркови за моделирање на јазик, фино-прилагодување за португалски апликации специфични за домен и како истражувачка основа за проучување на однесувањето на моделите во средини со помалку ресурси. Достапноста на повеќе големини на модели поддржува различни сценарија за распоредување, од академски експерименти со ограничен хардвер до поинтензивно насочено применето истражување.

Бидејќи моделите се објавени под либералната лиценца Apache 2.0 со отворени тежини, тие можат слободно да се користат, модифицираат и повторно да се дистрибуираат, правејќи ги достапни за широка заедница, вклучувајќи и оние кои немаат пристап до сопствени (проприетарни) API-и за модели.

Тековен статус

Серијата модели Tucano моментално е архивирана, што значи дека активниот развој е завршен. Тежините, кодот и придружната документација остануваат јавно достапни преку репозиториумот на GitHub на проектот за референца и понатамошна употреба од истражувачката заедница. Објавувањето на наодите во Patterns во 2025 година обезбедува рецензиран запис за методологијата, податочните материјали за обука и резултатите од евалуацијата поврзани со проектот, поддржувајќи репродуктивност и понатамошно проучување.

Внесување

Излез

Категории

Теми

Позадина и развој

Варијанти на моделот и фино-прилагодени верзии

Употребни случаи и наменета публика

Тековен статус