Tucano
Вхідні дані
Вихідні дані
Категорії
Теми
Tucano — це сімейство трансформерних мовних моделей із відкритими вагами, розроблених у Бразилії та навчених виключно на текстах португальською мовою. Моделі були попередньо натреновані на GigaVerbo — наборі даних приблизно з 200 мільярдів дедублікованих португальських токенів, і доступні у чотирьох розмірах — від 160 мільйонів до 2,4 мільярда параметрів.
Доопрацьовані варіанти включають версії, налаштовані на виконання інструкцій, а також оптимізовані за уподобаннями, а пов’язані мультимодальні похідні були випущені під назвою ViTucano. Tucano призначений для дослідників і розробників, які працюють над завданнями обробки природної мови португальською — мовою, яка історично була недостатньо представлена в розробці великомасштабних мовних моделей.
Проєкт описано в статті 2025 року, опублікованій у журналі Patterns, і випущено під ліцензією Apache 2.0; ваги та код доступні публічно на GitHub. Наразі серію моделей заархівовано.
Передумови та розробка
Tucano було розроблено в Бразилії як цілеспрямовану ініціативу для подолання дефіциту великомасштабних мовних моделей, навчених спеціально на португаломовному тексті. Хоча багато відомих мовних моделей навчаються переважно на корпусах англійською мовою, португальська — якою розмовляють понад 250 мільйонів людей у Бразилії, Португалії та інших країнах — історично отримувала менше уваги в дослідженнях фундаментальних моделей. Проєкт Tucano мав на меті заповнити цю прогалину, створивши з нуля трансформерні моделі, використовуючи великий якісний португаломовний набір даних.
Моделі було попередньо навчено на GigaVerbo — корпусі приблизно з 200 мільярдів дедублікованих португаломовних токенів, зібраному для підтримки надійного мовного моделювання в масштабі. Проєкт описано в статті Tucano: Advancing Neural Text Generation for Portuguese, опублікованій у журналі Patterns у 2025 році, а всі ваги та навчальний код є публічно доступними на GitHub за ліцензією Apache 2.0.
Варіанти моделей і донавчені версії
Сімейство Tucano охоплює чотири розміри базових моделей, що дозволяє дослідникам і розробникам обирати модель відповідно до своїх обчислювальних обмежень і вимог до задач:
- Tucano-160m – 160 мільйонів параметрів
- Tucano-630m – 630 мільйонів параметрів
- Tucano-1b1 – приблизно 1,1 мільярда параметрів
- Tucano-2b4 – приблизно 2,4 мільярда параметрів
Окрім базових попередньо навчених моделей, проєкт створив кілька донавчених похідних. Tucano-SFT і Tucano-DPO відповідають варіантам контрольованого донавчання та прямої оптимізації преференцій відповідно, тоді як Tucano-2b4-Instruct — це версія найбільшої базової моделі, орієнтована на виконання інструкцій. Ці донавчені версії розширюють практичну цінність базових моделей для розмовних і орієнтованих на задачі застосувань.
Також були випущені споріднені мультимодальні моделі ViTucano-1b5-v1 і ViTucano-2b8-v1 під назвою ViTucano, що вказує на подальші роботи, які поєднують візуальні модальності з розумінням португаломовного тексту.
Сценарії використання та цільова аудиторія
Tucano насамперед орієнтований на дослідників і розробників, які працюють над задачами обробки природної мови португаломовного контенту. Можливі сценарії використання включають генерацію тексту, бенчмарки мовного моделювання, донавчання для прикладних португаломовних задач у конкретних доменах, а також як дослідницьку базову лінію для вивчення поведінки моделей у середовищах із мовами нижчого ресурсного рівня. Наявність кількох розмірів моделей підтримує широкий спектр сценаріїв розгортання — від академічних експериментів на обмеженому обладнанні до більш ресурсомістких прикладних досліджень.
Оскільки моделі випущено за дозвільною ліцензією Apache 2.0 з відкритими вагами, їх можна вільно використовувати, модифікувати та перерозповсюджувати, роблячи їх доступними для широкої спільноти, зокрема для тих, хто не має доступу до пропрієтарних API моделей.
Поточний стан
Наразі серія моделей Tucano заархівована, тобто активна розробка завершилася. Ваги, код і супровідна документація залишаються публічно доступними через репозиторій проєкту на GitHub для довідки та подальшого використання дослідницькою спільнотою. Публікація результатів у Patterns у 2025 році забезпечує рецензований запис методології, навчальних даних і результатів оцінювання, пов’язаних із проєктом, що підтримує відтворюваність і подальше вивчення.