Tucano
Увод
Вывад
Катэгорыі
Тэмы
Tucano — це сімейство трансформерних мовних моделей із відкритими вагами, розроблених у Бразилії та навчених виключно на тексті португальською мовою. Моделі були попередньо натреновані на GigaVerbo — наборі даних приблизно з 200 мільярдів дедуплікованих португаломовних токенів, і доступні у чотирьох розмірах — від 160 мільйонів до 2,4 мільярда параметрів.
Доопрацьовані варіанти включають версії, налаштовані на виконання інструкцій, а також версії, оптимізовані за вподобаннями, і пов’язані мультимодальні похідні були випущені під назвою ViTucano. Tucano призначений для дослідників і розробників, які працюють над завданнями обробки природної мови португальською — мовою, яка історично була недостатньо представлена в розробці великомасштабних мовних моделей.
Проєкт задокументовано в статті 2025 року, опублікованій у журналі Patterns, і випущено під ліцензією Apache 2.0; ваги та код доступні публічно на GitHub. Наразі серію моделей заархівовано.
Передумови та розробка
Tucano було розроблено в Бразилії як цілеспрямовану ініціативу для подолання нестачі великомасштабних мовних моделей, навчених спеціально на португальському тексті. Хоча багато відомих мовних моделей здебільшого навчаються на англомовних корпусах, португальська — якою розмовляють понад 250 мільйонів людей у Бразилії, Португалії та інших країнах — історично отримувала менше уваги в дослідженнях фундаментальних моделей. Проєкт Tucano мав на меті заповнити цю прогалину, створивши трансформерні моделі з нуля на основі великого якісного датасету португальської мови.
Моделі було попередньо навчено на GigaVerbo — корпусі приблизно з 200 мільярдів дедуплікованих португальських токенів, зібраному для підтримки надійного мовного моделювання в масштабі. Проєкт описано в статті Tucano: Advancing Neural Text Generation for Portuguese, опублікованій у журналі Patterns у 2025 році, а всі ваги та код навчання є публічно доступними на GitHub за ліцензією Apache 2.0.
Варіанти моделей і донавчені версії
Сімейство Tucano охоплює чотири базові розміри моделей, що дає змогу дослідникам і розробникам обирати модель, відповідну до їхніх обчислювальних обмежень і вимог завдань:
- Tucano-160m – 160 мільйонів параметрів
- Tucano-630m – 630 мільйонів параметрів
- Tucano-1b1 – приблизно 1,1 мільярда параметрів
- Tucano-2b4 – приблизно 2,4 мільярда параметрів
Крім базових попередньо навчених моделей, проєкт створив кілька донавчених похідних. Tucano-SFT і Tucano-DPO відповідають варіантам керованого донавчання та прямої оптимізації преференцій відповідно, тоді як Tucano-2b4-Instruct — це версія найбільшої базової моделі, орієнтована на виконання інструкцій. Ці донавчені версії розширюють корисність базових моделей для розмовних і орієнтованих на завдання застосувань.
Також було випущено споріднені мультимодальні моделі ViTucano-1b5-v1 і ViTucano-2b8-v1 під назвою ViTucano, що вказує на подальші роботи, які поєднують візуальні модальності з розумінням португальського тексту.
Сценарії використання та цільова аудиторія
Передусім Tucano призначено для дослідників і розробників, які працюють над задачами обробки природної мови португальською. Можливі сценарії використання включають генерацію тексту, бенчмарки мовного моделювання, донавчання для доменно-специфічних португальських застосувань, а також як дослідницьку базову модель для вивчення поведінки моделей у середовищах із мовами нижчого ресурсу. Наявність кількох розмірів моделей підтримує широкий спектр сценаріїв розгортання — від академічних експериментів на обмеженому обладнанні до більш ресурсомістких прикладних досліджень.
Оскільки моделі випущено за дозвільною ліцензією Apache 2.0 з відкритими вагами, їх можна вільно використовувати, модифікувати та перерозподіляти, роблячи їх доступними для широкої спільноти, зокрема для тих, хто не має доступу до пропрієтарних API моделей.
Поточний стан
Наразі серія моделей Tucano заархівована, тобто активна розробка завершена. Ваги, код і супровідна документація залишаються публічно доступними через репозиторій GitHub проєкту для довідки та подальшого використання дослідницькою спільнотою. Публікація результатів у Patterns у 2025 році надає рецензований запис методології, даних навчання та результатів оцінювання, пов’язаних із проєктом, що підтримує відтворюваність і подальше вивчення.