ທຣານສຟໍເມີ Apache 2.0 Yes
Português

ຂໍ້ຄວາມເຂົ້າມາ

text

ຜົນລັບ

text

ໝວດหมู่

ຮູບແບບຫົວຂໍ້

generative ainlpresearch

Tucano ເປັນຊຸດຂອງໂມເດວພາສາຂອງ transformer ທີ່ເປີດນ້ຳໜັກ (open-weights) ທີ່ພັດທະນາຂຶ້ນໃນປະເທດບຣາຊິນ ແລະ ຖືກຝຶກຝົນພຽງແຕ່ດ້ວຍຂໍ້ຄວາມພາສາປອກຕຸກ (Portuguese). ໂມເດວຖືກ pre-trained ດ້ວຍ GigaVerbo ເຊິ່ງເປັນຊຸດຂໍ້ມູນທີ່ມີປະມານ 200 ຕື້ token ພາສາປອກຕຸກທີ່ຖືກກຳຈັດຂໍ້ຊ້ຳ (deduplicated) ແລະ ມີໃຫ້ໃຊ້ໃນ 4 ຂະໜາດ ຕັ້ງແຕ່ 160 ລ້ານ ຫາ 2.4 ຕື້ ພາລາມິເຕີ (parameters).

ລຸ້ນທີ່ປັບປຸງ (fine-tuned) ປະກອບມີຮຸ່ນທີ່ຕິດຕາມຄຳສັ່ງ (instruction-following) ແລະ ຮຸ່ນທີ່ຖືກປັບໂດຍອີງຕາມຄວາມມັກ (preference-optimized) ແລະ ລູກພັນທີ່ເປັນຫຼາຍໂໝດ (multimodal) ທີ່ກ່ຽວຂ້ອງ ໄດ້ຖືກປ່ອຍອອກພາຍໃຕ້ຊື່ ViTucano. Tucano ມີເຈດຈຳນົງໃຫ້ນັກຄົ້ນຄວ້າ ແລະ ນັກພັດທະນາ ທີ່ເຮັດວຽກກັບວຽກງານດ້ານການປະມວນຜົນພາສາທຳມະຊາດ (natural language processing) ໃນພາສາປອກຕຸກ ເຊິ່ງເປັນພາສາທີ່ຖືກບໍ່ຄ່ອຍໄດ້ຮັບການສະແດງຢ່າງພຽງພໍໃນການພັດທະນາໂມເດວພາສາຂະໜາດໃຫຍ່ (large-scale language model development) ໃນທາງປະຫວັດສາດ.

ໂຄງການນີ້ຖືກບັນທຶກໄວ້ໃນບົດຄວາມປີ 2025 ທີ່ຕີພິມໃນວາລະສານ Patterns ແລະ ຖືກປ່ອຍພາຍໃຕ້ລິຂະສິດ Apache 2.0, ໂດຍນ້ຳໜັກ (weights) ແລະ କୋດ (code) ມີໃຫ້ເຂົ້າເບິ່ງໄດ້ຢ່າງສາທາລະນະຢູ່ໃນ GitHub. ຊຸດໂມເດວປະຈຸບັນຖືກເກັບຖາວອນ (archived) ແລ້ວ.

ພື້ນຖານແລະການພັດທະນາ

Tucano ໄດ້ຖືກພັດທະນາຂຶ້ນໃນປະເທດບຣາຊິນ ເປັນຄວາມພະຍາຍາມໂດຍສະເພາະເພື່ອແກ້ຂໍ້ຂາດແຄນຂອງໂມເດວພາສາຂະໜາດໃຫຍ່ ທີ່ຖືກຝຶກດ້ວຍຂໍ້ມູນພາສາປອກຕຸຍໂດຍສະເພາະ. ໃນຂະນະທີ່ໂມເດວພາສາທີ່ໂດດເດັ່ນຫຼາຍຕົວຖືກຝຶກເປັນຫຼັກຈາກຄັງຂໍ້ມູນພາສາອັງກິດ, ພາສາປອກຕຸຍ—ທີ່ຖືກເວົ້າໂດຍຫຼາຍກວ່າ 250 ລ້ານຄົນທົ່ວບຣາຊິນ, ປອກຕຸຍ, ແລະປະເທດອື່ນໆ—ໃນປະຫວັດສາດຜ່ານມາ ໄດ້ຮັບຄວາມສົນໃຈໜ້ອຍກວ່າໃນວຽກຄົ້ນຄວ້າຂອງ foundation model. ໂຄງການ Tucano ມຸ່ງໝັ້ນເພື່ອປິດຊ່ອງວ່າງນີ້ ໂດຍການສ້າງໂມເດວອີງໃສ່ transformer ຈາກພື້ນຖານ ດ້ວຍຊຸດຂໍ້ມູນພາສາປອກຕຸຍຂະໜາດໃຫຍ່ ທີ່ມີຄຸນນະພາບສູງ.

ໂມເດວຖືກ pre-trained ຢູ່ເທິງ GigaVerbo, ເປັນຄັງຂໍ້ມູນທີ່ມີປະມານ 200 ຕື້ token ພາສາປອກຕຸຍທີ່ຖືກຕັດຊໍ້າ (deduplicated) ທີ່ຖືກປະກອບຂຶ້ນເພື່ອຮອງຮັບການສ້າງຮູບແບບພາສາຢ່າງໝັ້ນຄົງໃນຂະໜາດໃຫຍ່. ໂຄງການນີ້ຖືກບັນທຶກໄວ້ໃນເອກະສານ Tucano: Advancing Neural Text Generation for Portuguese ທີ່ຕີພິມໃນວາລະສານ Patterns ໃນປີ 2025, ແລະນ້ຳໜັກ (weights) ທັງໝົດ ພ້ອມກັບໂຄດການຝຶກ ມີໃຫ້ເຂົ້າເຖິງຢ່າງເປີດເຜີຍຢູ່ໃນ GitHub ພາຍໃຕ້ລະບົບອະນຸຍາດ Apache 2.0.

ຕົວແປຂອງໂມເດວ ແລະຮຸ່ນທີ່ປັບປຸງດ້ວຍການ fine-tune

ຄອບຄົວ Tucano ມີຂະໜາດໂມເດວພື້ນຖານ 4 ຂະໜາດ ເຮັດໃຫ້ນັກຄົ້ນຄວ້າ ແລະນັກພັດທະນາ ສາມາດເລືອກໂມເດວທີ່ເໝາະສົມກັບຂໍ້ຈຳກັດດ້ານຄວາມສາມາດຄຳນວນ ແລະຄວາມຕ້ອງການຂອງວຽກງານ:

  • Tucano-160m – 160 ລ້ານ parameters
  • Tucano-630m – 630 ລ້ານ parameters
  • Tucano-1b1 – ປະມານ 1.1 ຕື້ parameters
  • Tucano-2b4 – ປະມານ 2.4 ຕື້ parameters

ນອກຈາກໂມເດວ pre-trained ພື້ນຖານແລ້ວ ໂຄງການຍັງຜະລິດອະນຸພັນທີ່ fine-tuned ອີກຫຼາຍຢ່າງ. Tucano-SFT ແລະ Tucano-DPO ແມ່ນຕົວແປຂອງ supervised fine-tuning ແລະ direct preference optimization ຕາມລຳດັບ, ຂະນະທີ່ Tucano-2b4-Instruct ແມ່ນຮຸ່ນທີ່ຕິດຕາມຄຳສັ່ງ (instruction-following) ຂອງໂມເດວພື້ນຖານຂະໜາດໃຫຍ່ສຸດ. ຮຸ່ນ fine-tuned ເຫຼົ່ານີ້ຂະຫຍາຍຄວາມສາມາດຂອງໂມເດວພື້ນຖານ ໄປສູ່ການນຳໃຊ້ດ້ານການສົນທະນາ ແລະວຽກງານທີ່ມຸ່ງເນັ້ນຕາມວຽກ.

ໂມເດວ multimodal ທີ່ກ່ຽວຂ້ອງ, ViTucano-1b5-v1 ແລະ ViTucano-2b8-v1, ກໍ່ຖືກປ່ອຍອອກພາຍໃຕ້ຊື່ ViTucano ດ້ວຍ ຊຶ່ງສະແດງວ່າມີວຽກຕໍ່ຍອດ (downstream) ທີ່ນຳໃຊ້ modality ດ້ານພາບ ຄຽງຄູ່ກັບການເຂົ້າໃຈຂໍ້ຄວາມພາສາປອກຕຸຍ.

ກໍລະນີນຳໃຊ້ ແລະກຸ່ມຜູ້ໃຊ້ທີ່ຕັ້ງໃຈ

Tucano ຖືກມຸ່ງໝາຍເປັນຫຼັກສຳລັບນັກຄົ້ນຄວ້າ ແລະນັກພັດທະນາ ທີ່ເຮັດວຽກກ່ຽວກັບວຽກງານ natural language processing ໃນພາສາປອກຕຸຍ. ກໍລະນີນຳໃຊ້ທີ່ເປັນໄປໄດ້ ລວມມີການສ້າງຂໍ້ຄວາມ (text generation), ເກນການປຽບທຽບ (benchmarks) ຂອງ language modeling, ການ fine-tuning ສຳລັບການນຳໃຊ້ພາສາປອກຕຸຍທີ່ສະເພາະດ້ານ (domain-specific), ແລະເປັນພື້ນຖານການຄົ້ນຄວ້າ (research baseline) ສຳລັບການສຶກສາພຶດຕິກຳຂອງໂມເດວໃນສະພາບພາສາທີ່ມີຊັບພະຍາກອນຕ່ຳ. ການມີໂມເດວຫຼາຍຂະໜາດ ຊ່ວຍຮອງຮັບຫຼາຍສະຖານະການນຳໃຊ້ (deployment scenarios) ຈາກການທົດລອງໃນວົງການວິຊາການດ້ວຍຮາດແວທີ່ຈຳກັດ ໄປສູ່ການຄົ້ນຄວ້າທີ່ໃຊ້ຊັບພະຍາກອນຫຼາຍກວ່າ.

ເນື່ອງຈາກໂມເດວຖືກປ່ອຍອອກພາຍໃຕ້ລະບົບອະນຸຍາດ Apache 2.0 ທີ່ເປີດໃຫ້ນຳໃຊ້ໄດ້ຢ່າງອິດສະຫຼະ ພ້ອມກັບນ້ຳໜັກທີ່ເປີດເຜີຍ (open weights) ພວກເຂົາສາມາດນຳໃຊ້ໄດ້ຢ່າງເສລີ ປັບແກ້ ແລະແຈກຈ່າຍຄືນໄດ້ ເຮັດໃຫ້ເຂົ້າເຖິງໄດ້ສຳລັບຊຸມຊົນກວ້າງຂວາງ ລວມທັງຜູ້ທີ່ບໍ່ມີການເຂົ້າເຖິງ API ຂອງໂມເດວທີ່ເປັນການຄ້າ (proprietary model APIs).

ສະຖານະປັດຈຸບັນ

ຊຸດໂມເດວ Tucano ປັດຈຸບັນຖືກເກັບໄວ້ໃນຄັງ (archived) ຊຶ່ງໝາຍຄວາມວ່າການພັດທະນາທີ່ດຳເນີນຢູ່ໄດ້ສິ້ນສຸດລົງແລ້ວ. ນ້ຳໜັກ (weights), ໂຄດ, ແລະເອກະສານທີ່ກ່ຽວຂ້ອງ ຍັງຄົງເປີດໃຫ້ເຂົ້າເຖິງສາທາລະນະ ຜ່ານຄັງ GitHub ຂອງໂຄງການ ເພື່ອໃຊ້ເປັນຂໍ້ອ້າງອີງ ແລະສືບຕໍ່ນຳໃຊ້ໂດຍຊຸມຊົນການຄົ້ນຄວ້າ. ການຕີພິມຜົນການຄົ້ນພົບໃນ Patterns ໃນປີ 2025 ເຮັດໃຫ້ໄດ້ບັນທຶກທີ່ຜ່ານການກວດກາໂດຍຜູ້ຊ່ຽວຊານ (peer-reviewed) ກ່ຽວກັບວິທີການ, ຂໍ້ມູນການຝຶກ, ແລະຜົນການປະເມີນ ທີ່ກ່ຽວຂ້ອງກັບໂຄງການ ເພື່ອສະໜອງຄວາມສາມາດທຳຊ້ຳໄດ້ (reproducibility) ແລະການສຶກສາຕໍ່ໄປ.

ລາຍງານ