Tucano
Кіріс
Шығыс
Санаттар
Тақырыптар
Tucano — Бразилияда әзірленген және тек португал тіліндегі мәтіндерде оқытылған ашық салмақты трансформер тілдік модельдерінің отбасы. Модельдер шамамен 200 миллиард бірегейлендірілген португал токенінен тұратын GigaVerbo деректер жиынында алдын ала оқытылды және 160 миллионнан 2,4 миллиардқа дейінгі параметрлерді қамтитын төрт өлшемде қолжетімді.
Қосымша бейімделген нұсқаларға нұсқаулыққа сай әрекет ететін және артықшылықтарды оңтайландыруға бағытталған модельдер кіреді, ал соған байланысты мультимодальды туындылар ViTucano атауымен шығарылды. Tucano португал тіліндегі табиғи тілмен өңдеу тапсырмаларында жұмыс істейтін зерттеушілер мен әзірлеушілерге арналған, бұл тіл ірі ауқымды тілдік модельдерді әзірлеуде тарихи тұрғыдан жеткіліксіз ұсынылған.
Жоба 2025 жылы Patterns журналында жарияланған мақалада құжатталған және Apache 2.0 лицензиясы бойынша шығарылған; салмақтар мен код GitHub-та ашық қолжетімді. Модельдер сериясы қазіргі уақытта мұрағатталған.
Фон және әзірлеу
Tucano Бразилияда португал тіліндегі мәтінге арнайы дайындалған ауқымды тілдік модельдердің жетіспеушілігін шешуге бағытталған мақсатты күш ретінде әзірленді. Көптеген көрнекті тілдік модельдер негізінен ағылшын тіліндегі корпустарда дайындалса, Бразилия, Португалия және басқа елдерде 250 миллионнан астам адам сөйлейтін португал тілі тарихи тұрғыдан іргелі модельдерді зерттеуде аз назарға ілінді. Tucano жобасы үлкен, жоғары сапалы португал тіліндегі деректер жиынтығын пайдаланып, трансформаторға негізделген модельдерді нөлден бастап құру арқылы осы алшақтықты жоюды көздеді.
Модельдер шамамен 200 миллиард дедупликацияланған португал тіліндегі токеннен тұратын GigaVerbo деректер жиынында алдын ала дайындалды. Бұл корпус ауқымда мықты тілдік модельдеу үшін құрастырылған. Жоба Tucano: Advancing Neural Text Generation for Portuguese мақаласында құжатталған, ол 2025 жылы Patterns журналында жарияланды, ал барлық салмақтар мен дайындық коды GitHub-та Apache 2.0 лицензиясы бойынша ашық қолжетімді.
Модель нұсқалары және нақтылау (fine-tuned) нұсқалары
Tucano отбасы төрт базалық модель өлшемін қамтиды, бұл зерттеушілер мен әзірлеушілерге есептеу шектеулеріне және тапсырма талаптарына сай модель таңдауға мүмкіндік береді:
- Tucano-160m – 160 миллион параметр
- Tucano-630m – 630 миллион параметр
- Tucano-1b1 – шамамен 1,1 миллиард параметр
- Tucano-2b4 – шамамен 2,4 миллиард параметр
Базалық алдын ала дайындалған модельдерден бөлек, жоба бірнеше нақтыланған туынды нұсқаларын шығарды. Tucano-SFT және Tucano-DPO сәйкесінше бақыланатын нақтылау және тікелей артықшылықты оңтайландыру нұсқаларын білдіреді, ал Tucano-2b4-Instruct ең ірі базалық модельдің нұсқаулыққа бағынатын нұсқасы болып табылады. Бұл нақтыланған нұсқалар базалық модельдердің мүмкіндігін әңгімелесу және тапсырмаға бағытталған қолданбаларға қарай кеңейтеді.
Қатысты мультимодальды модельдер, ViTucano-1b5-v1 және ViTucano-2b8-v1, сондай-ақ ViTucano атауымен шығарылды; бұл португал тілін түсінумен қатар визуалды модальділіктерді қамтитын кейінгі жұмыстардың бар екенін меңзейді.
Қолдану жағдайлары және көзделген аудитория
Tucano ең алдымен португал тіліндегі табиғи тілдерді өңдеу тапсырмаларымен айналысатын зерттеушілер мен әзірлеушілерге арналған. Ықтимал қолдану жағдайларына мәтін генерациясы, тілдік модельдеу бойынша бенчмарктер, португал тіліндегі нақты домендік қолданбаларға арналған нақтылау (fine-tuning) және ресурсы аз тілдік ортада модельдің мінез-құлқын зерттеуге арналған зертханалық базалық үлгі ретінде қолдану кіреді. Бірнеше модель өлшемінің қолжетімді болуы шектеулі жабдықта академиялық тәжірибеден бастап, ресурсы көбірек талап ететін қолданбалы зерттеулерге дейінгі түрлі орналастыру сценарийлерін қолдайды.
Модельдер ашық салмақтармен және рұқсат беретін Apache 2.0 лицензиясымен шығарылғандықтан, оларды еркін пайдалануға, өзгертуге және қайта таратуға болады; бұл оларды, соның ішінде меншікті модель API-ларына қолжетімділігі жоқ адамдарды да қамтитын, кең қауымдастыққа қолжетімді етеді.
Қазіргі мәртебе
Tucano модельдер сериясы қазіргі уақытта мұрағатталған, яғни белсенді әзірлеу аяқталған. Салмақтар, код және оған қатысты құжаттама жобаның GitHub репозиторийі арқылы зерттеу қауымдастығының әрі қарай пайдалануы мен анықтама үшін ашық қолжетімді болып қала береді. 2025 жылы Patterns журналында нәтижелердің жариялануы жобамен байланысты әдістеме, дайындық деректері және бағалау нәтижелерінің peer-reviewed жазбасын береді, бұл қайта өндіруді және әрі қарай зерттеуді қолдайды.