Tucano

ພື້ນຖານແລະການພັດທະນາ

Tucano ໄດ້ຖືກພັດທະນາຂຶ້ນໃນປະເທດບຣາຊິນ ເປັນຄວາມພະຍາຍາມໂດຍສະເພາະເພື່ອແກ້ຂໍ້ຂາດແຄນຂອງໂມເດວພາສາຂະໜາດໃຫຍ່ ທີ່ຖືກຝຶກດ້ວຍຂໍ້ມູນພາສາປອກຕຸຍໂດຍສະເພາະ. ໃນຂະນະທີ່ໂມເດວພາສາທີ່ໂດດເດັ່ນຫຼາຍຕົວຖືກຝຶກເປັນຫຼັກຈາກຄັງຂໍ້ມູນພາສາອັງກິດ, ພາສາປອກຕຸຍ—ທີ່ຖືກເວົ້າໂດຍຫຼາຍກວ່າ 250 ລ້ານຄົນທົ່ວບຣາຊິນ, ປອກຕຸຍ, ແລະປະເທດອື່ນໆ—ໃນປະຫວັດສາດຜ່ານມາ ໄດ້ຮັບຄວາມສົນໃຈໜ້ອຍກວ່າໃນວຽກຄົ້ນຄວ້າຂອງ foundation model. ໂຄງການ Tucano ມຸ່ງໝັ້ນເພື່ອປິດຊ່ອງວ່າງນີ້ ໂດຍການສ້າງໂມເດວອີງໃສ່ transformer ຈາກພື້ນຖານ ດ້ວຍຊຸດຂໍ້ມູນພາສາປອກຕຸຍຂະໜາດໃຫຍ່ ທີ່ມີຄຸນນະພາບສູງ.

ໂມເດວຖືກ pre-trained ຢູ່ເທິງ GigaVerbo, ເປັນຄັງຂໍ້ມູນທີ່ມີປະມານ 200 ຕື້ token ພາສາປອກຕຸຍທີ່ຖືກຕັດຊໍ້າ (deduplicated) ທີ່ຖືກປະກອບຂຶ້ນເພື່ອຮອງຮັບການສ້າງຮູບແບບພາສາຢ່າງໝັ້ນຄົງໃນຂະໜາດໃຫຍ່. ໂຄງການນີ້ຖືກບັນທຶກໄວ້ໃນເອກະສານ Tucano: Advancing Neural Text Generation for Portuguese ທີ່ຕີພິມໃນວາລະສານ Patterns ໃນປີ 2025, ແລະນ້ຳໜັກ (weights) ທັງໝົດ ພ້ອມກັບໂຄດການຝຶກ ມີໃຫ້ເຂົ້າເຖິງຢ່າງເປີດເຜີຍຢູ່ໃນ GitHub ພາຍໃຕ້ລະບົບອະນຸຍາດ Apache 2.0.

ຕົວແປຂອງໂມເດວ ແລະຮຸ່ນທີ່ປັບປຸງດ້ວຍການ fine-tune

ຄອບຄົວ Tucano ມີຂະໜາດໂມເດວພື້ນຖານ 4 ຂະໜາດ ເຮັດໃຫ້ນັກຄົ້ນຄວ້າ ແລະນັກພັດທະນາ ສາມາດເລືອກໂມເດວທີ່ເໝາະສົມກັບຂໍ້ຈຳກັດດ້ານຄວາມສາມາດຄຳນວນ ແລະຄວາມຕ້ອງການຂອງວຽກງານ:

Tucano-160m – 160 ລ້ານ parameters
Tucano-630m – 630 ລ້ານ parameters
Tucano-1b1 – ປະມານ 1.1 ຕື້ parameters
Tucano-2b4 – ປະມານ 2.4 ຕື້ parameters

ນອກຈາກໂມເດວ pre-trained ພື້ນຖານແລ້ວ ໂຄງການຍັງຜະລິດອະນຸພັນທີ່ fine-tuned ອີກຫຼາຍຢ່າງ. Tucano-SFT ແລະ Tucano-DPO ແມ່ນຕົວແປຂອງ supervised fine-tuning ແລະ direct preference optimization ຕາມລຳດັບ, ຂະນະທີ່ Tucano-2b4-Instruct ແມ່ນຮຸ່ນທີ່ຕິດຕາມຄຳສັ່ງ (instruction-following) ຂອງໂມເດວພື້ນຖານຂະໜາດໃຫຍ່ສຸດ. ຮຸ່ນ fine-tuned ເຫຼົ່ານີ້ຂະຫຍາຍຄວາມສາມາດຂອງໂມເດວພື້ນຖານ ໄປສູ່ການນຳໃຊ້ດ້ານການສົນທະນາ ແລະວຽກງານທີ່ມຸ່ງເນັ້ນຕາມວຽກ.

ໂມເດວ multimodal ທີ່ກ່ຽວຂ້ອງ, ViTucano-1b5-v1 ແລະ ViTucano-2b8-v1, ກໍ່ຖືກປ່ອຍອອກພາຍໃຕ້ຊື່ ViTucano ດ້ວຍ ຊຶ່ງສະແດງວ່າມີວຽກຕໍ່ຍອດ (downstream) ທີ່ນຳໃຊ້ modality ດ້ານພາບ ຄຽງຄູ່ກັບການເຂົ້າໃຈຂໍ້ຄວາມພາສາປອກຕຸຍ.

ກໍລະນີນຳໃຊ້ ແລະກຸ່ມຜູ້ໃຊ້ທີ່ຕັ້ງໃຈ

Tucano ຖືກມຸ່ງໝາຍເປັນຫຼັກສຳລັບນັກຄົ້ນຄວ້າ ແລະນັກພັດທະນາ ທີ່ເຮັດວຽກກ່ຽວກັບວຽກງານ natural language processing ໃນພາສາປອກຕຸຍ. ກໍລະນີນຳໃຊ້ທີ່ເປັນໄປໄດ້ ລວມມີການສ້າງຂໍ້ຄວາມ (text generation), ເກນການປຽບທຽບ (benchmarks) ຂອງ language modeling, ການ fine-tuning ສຳລັບການນຳໃຊ້ພາສາປອກຕຸຍທີ່ສະເພາະດ້ານ (domain-specific), ແລະເປັນພື້ນຖານການຄົ້ນຄວ້າ (research baseline) ສຳລັບການສຶກສາພຶດຕິກຳຂອງໂມເດວໃນສະພາບພາສາທີ່ມີຊັບພະຍາກອນຕ່ຳ. ການມີໂມເດວຫຼາຍຂະໜາດ ຊ່ວຍຮອງຮັບຫຼາຍສະຖານະການນຳໃຊ້ (deployment scenarios) ຈາກການທົດລອງໃນວົງການວິຊາການດ້ວຍຮາດແວທີ່ຈຳກັດ ໄປສູ່ການຄົ້ນຄວ້າທີ່ໃຊ້ຊັບພະຍາກອນຫຼາຍກວ່າ.

ເນື່ອງຈາກໂມເດວຖືກປ່ອຍອອກພາຍໃຕ້ລະບົບອະນຸຍາດ Apache 2.0 ທີ່ເປີດໃຫ້ນຳໃຊ້ໄດ້ຢ່າງອິດສະຫຼະ ພ້ອມກັບນ້ຳໜັກທີ່ເປີດເຜີຍ (open weights) ພວກເຂົາສາມາດນຳໃຊ້ໄດ້ຢ່າງເສລີ ປັບແກ້ ແລະແຈກຈ່າຍຄືນໄດ້ ເຮັດໃຫ້ເຂົ້າເຖິງໄດ້ສຳລັບຊຸມຊົນກວ້າງຂວາງ ລວມທັງຜູ້ທີ່ບໍ່ມີການເຂົ້າເຖິງ API ຂອງໂມເດວທີ່ເປັນການຄ້າ (proprietary model APIs).

ສະຖານະປັດຈຸບັນ

ຊຸດໂມເດວ Tucano ປັດຈຸບັນຖືກເກັບໄວ້ໃນຄັງ (archived) ຊຶ່ງໝາຍຄວາມວ່າການພັດທະນາທີ່ດຳເນີນຢູ່ໄດ້ສິ້ນສຸດລົງແລ້ວ. ນ້ຳໜັກ (weights), ໂຄດ, ແລະເອກະສານທີ່ກ່ຽວຂ້ອງ ຍັງຄົງເປີດໃຫ້ເຂົ້າເຖິງສາທາລະນະ ຜ່ານຄັງ GitHub ຂອງໂຄງການ ເພື່ອໃຊ້ເປັນຂໍ້ອ້າງອີງ ແລະສືບຕໍ່ນຳໃຊ້ໂດຍຊຸມຊົນການຄົ້ນຄວ້າ. ການຕີພິມຜົນການຄົ້ນພົບໃນ Patterns ໃນປີ 2025 ເຮັດໃຫ້ໄດ້ບັນທຶກທີ່ຜ່ານການກວດກາໂດຍຜູ້ຊ່ຽວຊານ (peer-reviewed) ກ່ຽວກັບວິທີການ, ຂໍ້ມູນການຝຶກ, ແລະຜົນການປະເມີນ ທີ່ກ່ຽວຂ້ອງກັບໂຄງການ ເພື່ອສະໜອງຄວາມສາມາດທຳຊ້ຳໄດ້ (reproducibility) ແລະການສຶກສາຕໍ່ໄປ.

ຂໍ້ຄວາມເຂົ້າມາ

ຜົນລັບ

ໝວດหมู่

ຮູບແບບຫົວຂໍ້

ພື້ນຖານແລະການພັດທະນາ

ຕົວແປຂອງໂມເດວ ແລະຮຸ່ນທີ່ປັບປຸງດ້ວຍການ fine-tune

ກໍລະນີນຳໃຊ້ ແລະກຸ່ມຜູ້ໃຊ້ທີ່ຕັ້ງໃຈ

ສະຖານະປັດຈຸບັນ