Tucano

Передумови та розробка

Tucano було розроблено в Бразилії як цілеспрямовану ініціативу для подолання нестачі великомасштабних мовних моделей, навчених спеціально на португальському тексті. Хоча багато відомих мовних моделей здебільшого навчаються на англомовних корпусах, португальська — якою розмовляють понад 250 мільйонів людей у Бразилії, Португалії та інших країнах — історично отримувала менше уваги в дослідженнях фундаментальних моделей. Проєкт Tucano мав на меті заповнити цю прогалину, створивши трансформерні моделі з нуля на основі великого якісного датасету португальської мови.

Моделі було попередньо навчено на GigaVerbo — корпусі приблизно з 200 мільярдів дедуплікованих португальських токенів, зібраному для підтримки надійного мовного моделювання в масштабі. Проєкт описано в статті Tucano: Advancing Neural Text Generation for Portuguese, опублікованій у журналі Patterns у 2025 році, а всі ваги та код навчання є публічно доступними на GitHub за ліцензією Apache 2.0.

Варіанти моделей і донавчені версії

Сімейство Tucano охоплює чотири базові розміри моделей, що дає змогу дослідникам і розробникам обирати модель, відповідну до їхніх обчислювальних обмежень і вимог завдань:

Tucano-160m – 160 мільйонів параметрів
Tucano-630m – 630 мільйонів параметрів
Tucano-1b1 – приблизно 1,1 мільярда параметрів
Tucano-2b4 – приблизно 2,4 мільярда параметрів

Крім базових попередньо навчених моделей, проєкт створив кілька донавчених похідних. Tucano-SFT і Tucano-DPO відповідають варіантам керованого донавчання та прямої оптимізації преференцій відповідно, тоді як Tucano-2b4-Instruct — це версія найбільшої базової моделі, орієнтована на виконання інструкцій. Ці донавчені версії розширюють корисність базових моделей для розмовних і орієнтованих на завдання застосувань.

Також було випущено споріднені мультимодальні моделі ViTucano-1b5-v1 і ViTucano-2b8-v1 під назвою ViTucano, що вказує на подальші роботи, які поєднують візуальні модальності з розумінням португальського тексту.

Сценарії використання та цільова аудиторія

Передусім Tucano призначено для дослідників і розробників, які працюють над задачами обробки природної мови португальською. Можливі сценарії використання включають генерацію тексту, бенчмарки мовного моделювання, донавчання для доменно-специфічних португальських застосувань, а також як дослідницьку базову модель для вивчення поведінки моделей у середовищах із мовами нижчого ресурсу. Наявність кількох розмірів моделей підтримує широкий спектр сценаріїв розгортання — від академічних експериментів на обмеженому обладнанні до більш ресурсомістких прикладних досліджень.

Оскільки моделі випущено за дозвільною ліцензією Apache 2.0 з відкритими вагами, їх можна вільно використовувати, модифікувати та перерозподіляти, роблячи їх доступними для широкої спільноти, зокрема для тих, хто не має доступу до пропрієтарних API моделей.

Поточний стан

Наразі серія моделей Tucano заархівована, тобто активна розробка завершена. Ваги, код і супровідна документація залишаються публічно доступними через репозиторій GitHub проєкту для довідки та подальшого використання дослідницькою спільнотою. Публікація результатів у Patterns у 2025 році надає рецензований запис методології, даних навчання та результатів оцінювання, пов’язаних із проєктом, що підтримує відтворюваність і подальше вивчення.

Увод

Вывад

Катэгорыі

Тэмы

Передумови та розробка

Варіанти моделей і донавчені версії

Сценарії використання та цільова аудиторія

Поточний стан