Tucano
Вход
Выход
Категории
Темы
Tucano — это семейство трансформерных языковых моделей с открытыми весами, разработанных в Бразилии и обученных исключительно на текстах на португальском языке. Модели были предварительно обучены на GigaVerbo — наборе данных примерно из 200 миллиардов дедуплицированных португальских токенов, и доступны в четырех размерах: от 160 миллионов до 2,4 миллиарда параметров.
Существуют дообученные варианты, включая версии, ориентированные на следование инструкциям, и версии, оптимизированные под предпочтения; связанные мультимодальные производные были выпущены под названием ViTucano. Tucano предназначен для исследователей и разработчиков, работающих над задачами обработки естественного языка на португальском языке — языке, исторически недостаточно представленном в разработке крупномасштабных языковых моделей.
Проект описан в статье 2025 года, опубликованной в журнале Patterns, и выпущен под лицензией Apache 2.0; веса и код доступны публично на GitHub. В настоящее время серия моделей заархивирована.
Фон и разработка
Tucano был разработан в Бразилии как целенаправленная работа, направленная на устранение дефицита крупномасштабных языковых моделей, обученных специально на текстах на португальском языке. Хотя многие известные языковые модели обучаются преимущественно на корпусах на английском языке, португальский — на нем говорят более 250 миллионов человек в Бразилии, Португалии и других странах — исторически получал меньше внимания в исследованиях фундаментальных моделей. Проект Tucano стремился закрыть этот разрыв, создавая трансформерные модели с нуля с использованием большого высококачественного датасета на португальском языке.
Модели были предварительно обучены на GigaVerbo — корпусе примерно из 200 миллиардов дедуплицированных португальских токенов, собранном для поддержки надежного языкового моделирования в масштабе. Проект описан в статье Tucano: Advancing Neural Text Generation for Portuguese, опубликованной в журнале Patterns в 2025 году, а все веса и код обучения публично доступны на GitHub по лицензии Apache 2.0.
Варианты моделей и дообученные версии
Семейство Tucano включает четыре базовых размера моделей, что позволяет исследователям и разработчикам выбрать модель, подходящую под их вычислительные ограничения и требования задач:
- Tucano-160m – 160 миллионов параметров
- Tucano-630m – 630 миллионов параметров
- Tucano-1b1 – примерно 1,1 миллиарда параметров
- Tucano-2b4 – примерно 2,4 миллиарда параметров
Помимо базовых предварительно обученных моделей, проект выпустил несколько дообученных производных. Tucano-SFT и Tucano-DPO представляют собой варианты обучения с учителем и оптимизации прямых предпочтений соответственно, а Tucano-2b4-Instruct — версию для следования инструкциям крупнейшей базовой модели. Эти дообученные версии расширяют применимость базовых моделей для разговорных и ориентированных на задачи сценариев.
Также были выпущены связанные мультимодальные модели ViTucano-1b5-v1 и ViTucano-2b8-v1 под названием ViTucano, что указывает на дальнейшие работы, в которых визуальные модальности используются вместе с пониманием текстов на португальском языке.
Сценарии использования и целевая аудитория
Tucano в первую очередь ориентирован на исследователей и разработчиков, работающих над задачами обработки естественного языка на португальском языке. Возможные сценарии использования включают генерацию текста, бенчмарки языкового моделирования, дообучение для прикладных задач на португальском языке в конкретных предметных областях, а также в качестве исследовательского базового варианта для изучения поведения моделей в языковых средах с более низкими ресурсами. Наличие нескольких размеров моделей поддерживает широкий спектр сценариев развертывания — от академических экспериментов на ограниченном оборудовании до более ресурсоемких прикладных исследований.
Поскольку модели выпущены по разрешительной лицензии Apache 2.0 с открытыми весами, их можно свободно использовать, модифицировать и распространять, что делает их доступными для широкой аудитории, включая тех, у кого нет доступа к проприетарным API моделей.
Текущее состояние
Серия моделей Tucano в настоящее время архивирована, то есть активная разработка завершена. Веса, код и сопутствующая документация остаются публично доступными через репозиторий проекта на GitHub для справки и дальнейшего использования исследовательским сообществом. Публикация результатов в Patterns в 2025 году дает рецензируемую запись методологии, обучающих данных и результатов оценивания, связанных с проектом, поддерживая воспроизводимость и дальнейшие исследования.