Трансформер Apache 2.0 Yes
Português

Оролт

text

Гаралт

text

Ангиллууд

Загварууд

generative ainlpresearch

Tucano нь Бразилд хөгжүүлж, зөвхөн португал хэл дээрх бичвэрээр сургасан нээлттэй жинтэй трансформер хэлний загваруудын гэр бүл юм. Загварууд нь ойролцоогоор 200 тэрбум дэд-давхардалтай португал хэлний токеноос бүрдсэн GigaVerbo өгөгдлийн сан дээр урьдчилан сургагдсан бөгөөд 160 саяас 2.4 тэрбум хүртэлх параметрийн дөрвөн хэмжээтэйгээр ашиглах боломжтой.

Нарийвчилж сургасан хувилбарууд нь заавар дагах болон сонголтоор оновчилсон хувилбаруудыг багтаадаг бөгөөд холбогдох мультимодал деривативуудыг ViTucano нэрийн дор гаргасан. Tucano нь португал хэл дээрх байгалийн хэлний боловсруулалтын даалгаврууд дээр ажилладаг судлаачид болон хөгжүүлэгчдэд зориулагдсан бөгөөд түүхэндээ том хэмжээний хэлний загвар хөгжүүлэлтэд харьцангуй дутуу төлөөлөгдсөн хэл юм.

Төслийг Patterns сэтгүүлд 2025 онд хэвлэгдсэн өгүүлэлд баримтжуулсан бөгөөд Apache 2.0 лицензийн дор гаргасан; жин болон код нь GitHub дээр олон нийтэд нээлттэй. Загварын цувралыг одоогоор архивласан.

Суурь ба Хөгжил

Tucano нь Португал хэл дээр тусгайлан бэлтгэгдсэн том хэмжээний хэлний загваруудын хомсдлыг шийдвэрлэх зорилготойгоор Бразилд хөгжүүлэгдсэн. Олон нэр хүндтэй хэлний загварууд ихэвчлэн англи хэл дээрх корпус дээр бэлтгэгддэг бол Португал хэл—Бразил, Португал болон бусад улсуудад 250 сая гаруй хүн ярьдаг—түүхэндээ суурь загварын судалгаанд харьцангуй бага анхаарал хандуулсаар ирсэн. Tucano төсөл нь том, өндөр чанартай португал хэлний өгөгдлийн сан ашиглан трансформер суурьтай загваруудыг эхнээс нь бүтээн байгуулж энэ зөрүүг нөхөх зорилготой байв.

Загваруудыг ойролцоогоор 200 тэрбум дедупликацлагдсан португал токеноос бүрдсэн GigaVerbo дээр урьдчилан бэлтгэсэн бөгөөд энэ нь масштабын түвшинд бат бөх хэлний загварчлалыг дэмжих зорилготой корпус юм. Төслийн баримтжуулалт нь 2025 онд Patterns сэтгүүлд хэвлэгдсэн Tucano: Advancing Neural Text Generation for Portuguese өгүүлэлд тусгагдсан бөгөөд бүх жин ба сургалтын код нь Apache 2.0 лицензийн дагуу GitHub дээр олон нийтэд нээлттэйгээр байршуулсан.

Загварын хувилбарууд ба Нарийвчилсан (Fine-Tuned) хувилбарууд

Tucano гэр бүл нь дөрвөн суурь загварын хэмжээтэй бөгөөд судлаачид болон хөгжүүлэгчид тооцооллын хязгаарлалт болон даалгаврын шаардлагад тохирсон загварыг сонгох боломжтой:

  • Tucano-160m – 160 сая параметр
  • Tucano-630m – 630 сая параметр
  • Tucano-1b1 – ойролцоогоор 1.1 тэрбум параметр
  • Tucano-2b4 – ойролцоогоор 2.4 тэрбум параметр

Суурь урьдчилан бэлтгэсэн загваруудаас гадна төсөл нь хэд хэдэн нарийвчилсан хувилбаруудыг гаргасан. Tucano-SFT ба Tucano-DPO нь тус тус хяналттай нарийвчилсан бэлтгэл болон шууд давуу талыг оновчлох (direct preference optimization) хувилбаруудыг илэрхийлдэг бол Tucano-2b4-Instruct нь хамгийн том суурь загварын заавар дагах (instruction-following) хувилбар юм. Эдгээр нарийвчилсан хувилбарууд нь суурь загваруудын хэрэглээг яриа болон даалгаварт чиглэсэн хэрэглээ рүү өргөж өгдөг.

ViTucano нэрийн дор мөн холбоотой мультимодаль загварууд болох ViTucano-1b5-v1 болон ViTucano-2b8-v1-г гаргасан бөгөөд энэ нь португал хэлний ойлголттой зэрэгцэн харааны модаль байдлыг ашигладаг дараагийн ажлуудыг илтгэж байна.

Хэрэглээний тохиолдлууд ба Зорилтот хэрэглэгчид

Tucano нь үндсэндээ португал хэл дээрх байгалийн хэлний боловсруулалтын даалгаврууд дээр ажилладаг судлаачид болон хөгжүүлэгчдэд чиглэсэн. Боломжит хэрэглээний тохиолдлууд нь текст үүсгэх, хэлний загварчлалын жишиг (benchmark) туршилтууд, тухайн салбарт чиглэсэн португал хэлний хэрэглээнд зориулсан нарийвчилсан бэлтгэл, мөн нөөц багатай хэлний орчинд загварын зан төлөвийг судлах судалгааны суурь (baseline) зэрэг орно. Олон хэмжээтэй загварууд байгаа нь хязгаарлагдмал техник хангамж дээрх академик туршилтаас эхлээд илүү их нөөц шаарддаг хэрэглээний судалгаа хүртэлх олон төрлийн байршуулалтын хувилбарыг дэмждэг.

Загваруудыг нээлттэй жинтэй, зөвшөөрөл олгодог (permissive) Apache 2.0 лицензийн дор гаргасан тул тэдгээрийг чөлөөтэй ашиглах, өөрчлөх, дахин түгээх боломжтой бөгөөд энэ нь хувийн (proprietary) загварын API-д хандах боломжгүй хүмүүсийг ч багтаасан өргөн хүрээний хамт олонд хүртээмжтэй болгодог.

Одоогийн төлөв

Tucano загварын цуврал одоогоор архивлагдсан бөгөөд энэ нь идэвхтэй хөгжүүлэлт дууссан гэсэн үг юм. Жин, код, холбогдох баримтжуулалт нь судалгааны хамт олон лавлагаа болон үргэлжлүүлэн ашиглах зорилгоор төслийн GitHub репозиторын дамжуулан олон нийтэд нээлттэй хэвээр байна. 2025 онд Patterns сэтгүүлд гаргасан үр дүнгийн нийтлэл нь уг төслийн аргачлал, сургалтын өгөгдөл, үнэлгээний үр дүнг peer-reviewed байдлаар бүртгэж, давтагдах боломж (reproducibility) болон цаашдын судалгааг дэмждэг.

Тайлан