Трансформер Apache 2.0 Yes
Português

Внесување

text

Излез

text

Категории

Теми

generative ainlpresearch

Tucano е семејство на трансформерски јазични модели со отворени тежини, развиени во Бразил и обучувани исклучиво на текст на португалски јазик. Моделите беа претходно обучени на GigaVerbo, збирка податоци од приближно 200 милијарди дедуплицирани португалски токени, и се достапни во четири големини, од 160 милиони до 2,4 милијарди параметри.

Фино-прилагодени варијанти вклучуваат верзии што следат инструкции и верзии оптимизирани за преференци, а поврзани мултимодални деривати беа објавени под името ViTucano. Tucano е наменет за истражувачи и развивачи кои работат на задачи за обработка на природен јазик на португалски, јазик кој историски е недоволно застапен во развојот на големи јазични модели.

Проектот е документиран во труд од 2025 година објавен во списанието Patterns и е објавен под лиценцата Apache 2.0, при што тежините и кодот се јавно достапни на GitHub. Серијата модели во моментов е архивирана.

Позадина и развој

Tucano беше развиен во Бразил како посветен напор за да се адресира недостигот на големи јазични модели обучени конкретно на португалски текст. Додека многу истакнати јазични модели се обучуваат претежно на англиски корпуси, португалскиот — кој го зборуваат над 250 милиони луѓе низ Бразил, Португалија и други земји — историски добиваше помалку внимание во истражувањето на основни модели. Проектот Tucano имаше за цел да ја затвори оваа празнина со градење трансформерски модели од темел, користејќи голем, висококвалитетен португалски податочен сет.

Моделите беа претходно обучени на GigaVerbo, корпус од приближно 200 милијарди дедуплицирани португалски токени составен за поддршка на робусно моделирање на јазик во размер. Проектот е документиран во трудот Tucano: Advancing Neural Text Generation for Portuguese, објавен во списанието Patterns во 2025 година, а сите тежини и код за обука се јавно достапни на GitHub под лиценцата Apache 2.0.

Варијанти на моделот и фино-прилагодени верзии

Семејството Tucano опфаќа четири основни големини на модели, овозможувајќи им на истражувачите и развивачите да изберат модел соодветен на нивните пресметковни ограничувања и барања на задачите:

  • Tucano-160m – 160 милиони параметри
  • Tucano-630m – 630 милиони параметри
  • Tucano-1b1 – приближно 1,1 милијарда параметри
  • Tucano-2b4 – приближно 2,4 милијарди параметри

Покрај основните претходно обучени модели, проектот произведе неколку фино-прилагодени деривати. Tucano-SFT и Tucano-DPO претставуваат соодветно варијанти за надгледувано фино-прилагодување и оптимизација на директни преференци, додека Tucano-2b4-Instruct е верзија што следи инструкции на најголемиот основен модел. Овие фино-прилагодени верзии ја прошируваат применливоста на основните модели кон разговорни и ориентирани кон задачи апликации.

Поврзани мултимодални модели, ViTucano-1b5-v1 и ViTucano-2b8-v1, исто така беа објавени под името ViTucano, што укажува на понатамошна работа што вклучува визуелни модалитети заедно со разбирање на португалски текст.

Употребни случаи и наменета публика

Tucano првенствено е наменет за истражувачи и развивачи кои работат на задачи за обработка на природен јазик на португалски. Потенцијални употребни случаи вклучуваат генерирање текст, бенчмаркови за моделирање на јазик, фино-прилагодување за португалски апликации специфични за домен и како истражувачка основа за проучување на однесувањето на моделите во средини со помалку ресурси. Достапноста на повеќе големини на модели поддржува различни сценарија за распоредување, од академски експерименти со ограничен хардвер до поинтензивно насочено применето истражување.

Бидејќи моделите се објавени под либералната лиценца Apache 2.0 со отворени тежини, тие можат слободно да се користат, модифицираат и повторно да се дистрибуираат, правејќи ги достапни за широка заедница, вклучувајќи и оние кои немаат пристап до сопствени (проприетарни) API-и за модели.

Тековен статус

Серијата модели Tucano моментално е архивирана, што значи дека активниот развој е завршен. Тежините, кодот и придружната документација остануваат јавно достапни преку репозиториумот на GitHub на проектот за референца и понатамошна употреба од истражувачката заедница. Објавувањето на наодите во Patterns во 2025 година обезбедува рецензиран запис за методологијата, податочните материјали за обука и резултатите од евалуацијата поврзани со проектот, поддржувајќи репродуктивност и понатамошно проучување.

Извештај