Transformer Apache 2.0 Yes
Português

입력

text

출력

text

테마

generative ainlpresearch

Tucano는 브라질에서 개발된 오픈 웨이트(transformer) 언어 모델 제품군으로, 포르투갈어 텍스트만을 대상으로 독점 학습되었습니다. 이 모델들은 약 2,000억 개 규모의 중복 제거된 포르투갈어 토큰으로 구성된 데이터셋인 GigaVerbo로 사전 학습되었으며, 1억 6,000만 개부터 24억 개 파라미터까지 네 가지 크기로 제공됩니다.

미세 조정된 변형에는 지시를 따르는(instruction-following) 버전과 선호도 최적화(preference-optimized) 버전이 포함되며, 관련 멀티모달 파생 모델은 ViTucano라는 이름으로 출시되었습니다. Tucano는 역사적으로 대규모 언어 모델 개발에서 상대적으로 소외되어 온 언어인 포르투갈어로 자연어 처리 작업을 수행하는 연구자와 개발자를 위해 의도되었습니다.

이 프로젝트는 Patterns 저널에 게재된 2025년 논문에 문서화되어 있으며, Apache 2.0 라이선스로 공개됩니다. 가중치와 코드는 GitHub에서 공개되어 있습니다. 또한 이 모델 시리즈는 현재 아카이브되었습니다.

배경 및 개발

Tucano는 포르투갈어 텍스트에 대해 특별히 학습된 대규모 언어 모델의 부족을 해결하기 위한 전담 노력으로 브라질에서 개발되었습니다. 많은 저명한 언어 모델이 주로 영어 언어 말뭉치로 학습되는 반면, 브라질, 포르투갈 및 기타 국가에 걸쳐 2억 5천만 명이 넘는 사람들이 사용하는 포르투갈어는 역사적으로 기초 모델 연구에서 상대적으로 덜 주목받아 왔습니다. Tucano 프로젝트는 대규모의 고품질 포르투갈어 데이터셋을 사용해 처음부터 트랜스포머 기반 모델을 구축함으로써 이러한 격차를 메우는 것을 목표로 했습니다.

모델은 약 2,000억 개의 중복 제거(deduplicated) 포르투갈어 토큰으로 구성된 말뭉치인 GigaVerbo에서 사전 학습되었습니다. 이 말뭉치는 규모에 맞춘 견고한 언어 모델링을 지원하기 위해 조립되었습니다. 이 프로젝트는 2025년에 저널 Patterns에 게재된 논문 Tucano: Advancing Neural Text Generation for Portuguese에 문서화되어 있으며, 모든 가중치와 학습 코드는 Apache 2.0 라이선스에 따라 GitHub에서 공개적으로 제공됩니다.

모델 변형 및 미세조정 버전

Tucano 계열은 네 가지 기본 모델 크기를 아우르며, 연구자와 개발자가 자신의 계산 제약과 작업 요구사항에 맞는 모델을 선택할 수 있도록 합니다:

  • Tucano-160m – 1억 6,000만 파라미터
  • Tucano-630m – 6억 3,000만 파라미터
  • Tucano-1b1 – 약 11억 파라미터
  • Tucano-2b4 – 약 24억 파라미터

기본 사전 학습 모델 외에도, 프로젝트는 여러 미세조정 파생 모델을 생산했습니다. Tucano-SFT와 Tucano-DPO는 각각 지도 미세조정(supervised fine-tuning)과 직접 선호 최적화(direct preference optimization) 변형을 의미하며, Tucano-2b4-Instruct는 가장 큰 기본 모델의 지시(인스트럭션) 수행 버전입니다. 이러한 미세조정 버전은 기본 모델의 활용도를 대화형 및 작업 중심 애플리케이션으로 확장합니다.

관련 멀티모달 모델인 ViTucano-1b5-v1과 ViTucano-2b8-v1도 ViTucano라는 이름으로 함께 공개되었으며, 이는 포르투갈어 텍스트 이해와 더불어 시각적 양식을 통합하는 후속 작업을 시사합니다.

활용 사례 및 의도된 대상

Tucano는 주로 포르투갈어로 자연어 처리 작업을 수행하는 연구자와 개발자를 대상으로 합니다. 가능한 활용 사례로는 텍스트 생성, 언어 모델링 벤치마크, 특정 도메인의 포르투갈어 애플리케이션을 위한 미세조정, 그리고 저자원 언어 환경에서 모델의 동작을 연구하기 위한 연구 기준선(baseline)으로서의 사용 등이 있습니다. 여러 모델 크기의 제공은 제한된 하드웨어에서의 학술적 실험부터 더 자원이 필요한 응용 연구에 이르기까지 다양한 배포 시나리오를 지원합니다.

모델이 개방형 가중치와 함께 허용적인 Apache 2.0 라이선스로 공개되었기 때문에, 누구나 자유롭게 사용하고 수정하며 재배포할 수 있어, 독점 모델 API에 접근하지 못하는 사람들을 포함한 광범위한 커뮤니티에 접근성을 제공합니다.

현재 상태

Tucano 모델 시리즈는 현재 아카이브되어 있으며, 즉 활발한 개발이 종료되었습니다. 가중치, 코드, 관련 문서는 연구 커뮤니티가 참고하고 계속 활용할 수 있도록 프로젝트의 GitHub 저장소를 통해 공개적으로 접근 가능합니다. 2025년에 Patterns에 게재된 결과는 프로젝트와 관련된 방법론, 학습 데이터, 평가 결과를 동료 심사를 거친 기록으로 제공하여 재현성과 추가 연구를 뒷받침합니다.

신고