Tucano

Передумови та розробка

Tucano було розроблено в Бразилії як цілеспрямовану ініціативу для подолання дефіциту великомасштабних мовних моделей, навчених спеціально на португаломовному тексті. Хоча багато відомих мовних моделей навчаються переважно на корпусах англійською мовою, португальська — якою розмовляють понад 250 мільйонів людей у Бразилії, Португалії та інших країнах — історично отримувала менше уваги в дослідженнях фундаментальних моделей. Проєкт Tucano мав на меті заповнити цю прогалину, створивши з нуля трансформерні моделі, використовуючи великий якісний португаломовний набір даних.

Моделі було попередньо навчено на GigaVerbo — корпусі приблизно з 200 мільярдів дедублікованих португаломовних токенів, зібраному для підтримки надійного мовного моделювання в масштабі. Проєкт описано в статті Tucano: Advancing Neural Text Generation for Portuguese, опублікованій у журналі Patterns у 2025 році, а всі ваги та навчальний код є публічно доступними на GitHub за ліцензією Apache 2.0.

Варіанти моделей і донавчені версії

Сімейство Tucano охоплює чотири розміри базових моделей, що дозволяє дослідникам і розробникам обирати модель відповідно до своїх обчислювальних обмежень і вимог до задач:

Tucano-160m – 160 мільйонів параметрів
Tucano-630m – 630 мільйонів параметрів
Tucano-1b1 – приблизно 1,1 мільярда параметрів
Tucano-2b4 – приблизно 2,4 мільярда параметрів

Окрім базових попередньо навчених моделей, проєкт створив кілька донавчених похідних. Tucano-SFT і Tucano-DPO відповідають варіантам контрольованого донавчання та прямої оптимізації преференцій відповідно, тоді як Tucano-2b4-Instruct — це версія найбільшої базової моделі, орієнтована на виконання інструкцій. Ці донавчені версії розширюють практичну цінність базових моделей для розмовних і орієнтованих на задачі застосувань.

Також були випущені споріднені мультимодальні моделі ViTucano-1b5-v1 і ViTucano-2b8-v1 під назвою ViTucano, що вказує на подальші роботи, які поєднують візуальні модальності з розумінням португаломовного тексту.

Сценарії використання та цільова аудиторія

Tucano насамперед орієнтований на дослідників і розробників, які працюють над задачами обробки природної мови португаломовного контенту. Можливі сценарії використання включають генерацію тексту, бенчмарки мовного моделювання, донавчання для прикладних португаломовних задач у конкретних доменах, а також як дослідницьку базову лінію для вивчення поведінки моделей у середовищах із мовами нижчого ресурсного рівня. Наявність кількох розмірів моделей підтримує широкий спектр сценаріїв розгортання — від академічних експериментів на обмеженому обладнанні до більш ресурсомістких прикладних досліджень.

Оскільки моделі випущено за дозвільною ліцензією Apache 2.0 з відкритими вагами, їх можна вільно використовувати, модифікувати та перерозповсюджувати, роблячи їх доступними для широкої спільноти, зокрема для тих, хто не має доступу до пропрієтарних API моделей.

Поточний стан

Наразі серія моделей Tucano заархівована, тобто активна розробка завершилася. Ваги, код і супровідна документація залишаються публічно доступними через репозиторій проєкту на GitHub для довідки та подальшого використання дослідницькою спільнотою. Публікація результатів у Patterns у 2025 році забезпечує рецензований запис методології, навчальних даних і результатів оцінювання, пов’язаних із проєктом, що підтримує відтворюваність і подальше вивчення.

Вхідні дані

Вихідні дані

Категорії

Теми

Передумови та розробка

Варіанти моделей і донавчені версії

Сценарії використання та цільова аудиторія

Поточний стан