Transformer Apache 2.0 Yes
Português

อินพุต

text

เอาต์พุต

text

หมวดหมู่

ธีม

generative ainlpresearch

Tucano คือกลุ่มของโมเดลภาษาแบบทรานส์ฟอร์มเมอร์น้ำหนักเปิด (open-weights) ที่พัฒนาขึ้นในบราซิล และฝึกด้วยข้อมูลข้อความภาษาโปรตุเกสเท่านั้น โมเดลเหล่านี้ได้รับการฝึกก่อน (pre-trained) บน GigaVerbo ซึ่งเป็นชุดข้อมูลที่มีโทเค็นภาษาโปรตุเกสที่ผ่านการตัดรายการซ้ำแล้วประมาณ 200 พันล้านโทเค็น และมีให้เลือกในสี่ขนาด ตั้งแต่ 160 ล้านถึง 2.4 พันล้านพารามิเตอร์

เวอร์ชันที่ปรับแต่ง (fine-tuned) ได้แก่รุ่นที่ทำตามคำสั่ง (instruction-following) และรุ่นที่ปรับให้เหมาะกับความชอบ (preference-optimized) และอนุพันธ์แบบมัลติโหมดที่เกี่ยวข้องได้รับการเผยแพร่ภายใต้ชื่อ ViTucano

Tucano มีเป้าหมายสำหรับนักวิจัยและนักพัฒนาที่ทำงานด้านงานประมวลผลภาษาธรรมชาติในภาษาโปรตุเกส ซึ่งเป็นภาษาที่เคยได้รับการนำเสนออย่างไม่มากนักในการพัฒนาโมเดลภาษาขนาดใหญ่

โครงการนี้ได้รับการบันทึกไว้ในบทความปี 2025 ที่ตีพิมพ์ในวารสาร Patterns และเผยแพร่ภายใต้สัญญาอนุญาต Apache 2.0 โดยมีน้ำหนักและโค้ดให้ใช้งานได้สาธารณะบน GitHub ชุดโมเดลนี้ถูกเก็บถาวรแล้วในปัจจุบัน

พื้นหลังและการพัฒนา

Tucano ได้รับการพัฒนาขึ้นในบราซิลด้วยความพยายามโดยเฉพาะเพื่อแก้ปัญหาการขาดแคลนโมเดลภาษาขนาดใหญ่ที่ได้รับการฝึกมาโดยเฉพาะบนข้อความภาษาโปรตุเกส แม้ว่าโมเดลภาษาที่มีชื่อเสียงจำนวนมากจะถูกฝึกเป็นหลักจากคลังข้อมูลภาษาอังกฤษ แต่ภาษาโปรตุเกส—ซึ่งมีผู้พูดมากกว่า 250 ล้านคนทั่วบราซิล โปรตุเกส และประเทศอื่น ๆ—กลับได้รับความสนใจน้อยกว่าในงานวิจัยโมเดลพื้นฐานในเชิงประวัติศาสตร์ โครงการ Tucano มีเป้าหมายเพื่อปิดช่องว่างนี้ด้วยการสร้างโมเดลที่ใช้สถาปัตยกรรมแบบทรานส์ฟอร์เมอร์ตั้งแต่ต้น โดยใช้ชุดข้อมูลภาษาโปรตุเกสขนาดใหญ่ที่มีคุณภาพสูง

โมเดลเหล่านี้ถูกฝึกล่วงหน้าบน GigaVerbo ซึ่งเป็นคลังข้อมูลที่ประกอบด้วยโทเค็นภาษาโปรตุเกสที่ผ่านการตัดรายการซ้ำแล้วประมาณ 200 พันล้านโทเค็น เพื่อรองรับการสร้างแบบจำลองภาษาอย่างแข็งแกร่งในระดับขนาดใหญ่ โครงการนี้ได้รับการบันทึกไว้ในบทความ Tucano: Advancing Neural Text Generation for Portuguese ที่ตีพิมพ์ในวารสาร Patterns ในปี 2025 และน้ำหนักทั้งหมดรวมถึงโค้ดการฝึกสามารถเข้าถึงได้สาธารณะบน GitHub ภายใต้สัญญาอนุญาต Apache 2.0

รูปแบบของโมเดลและเวอร์ชันที่ปรับแต่งแล้ว

ตระกูล Tucano ครอบคลุมโมเดลพื้นฐาน 4 ขนาด ทำให้ผู้วิจัยและนักพัฒนาสามารถเลือกโมเดลที่เหมาะสมกับข้อจำกัดด้านการคำนวณและความต้องการของงานได้:

  • Tucano-160m – 160 ล้านพารามิเตอร์
  • Tucano-630m – 630 ล้านพารามิเตอร์
  • Tucano-1b1 – ประมาณ 1.1 พันล้านพารามิเตอร์
  • Tucano-2b4 – ประมาณ 2.4 พันล้านพารามิเตอร์

นอกเหนือจากโมเดลพื้นฐานที่ฝึกล่วงหน้าแล้ว โครงการยังได้สร้างอนุพันธ์ที่ปรับแต่งแล้วหลายรายการ Tucano-SFT และ Tucano-DPO แทนการปรับแต่งแบบมีผู้สอน (supervised fine-tuning) และการปรับให้เหมาะสมตามความชอบโดยตรง (direct preference optimization) ตามลำดับ ส่วน Tucano-2b4-Instruct คือเวอร์ชันที่ทำตามคำสั่งของโมเดลพื้นฐานขนาดใหญ่ที่สุด เวอร์ชันที่ปรับแต่งแล้วเหล่านี้ช่วยขยายประโยชน์ของโมเดลพื้นฐานไปสู่การใช้งานด้านการสนทนาและงานที่มุ่งเป้าหมาย

นอกจากนี้ยังมีการเปิดตัวโมเดลมัลติโหมดที่เกี่ยวข้อง ได้แก่ ViTucano-1b5-v1 และ ViTucano-2b8-v1 ภายใต้ชื่อ ViTucano ด้วย ซึ่งบ่งชี้ถึงงานต่อยอดที่ผสานความสามารถด้านภาพเข้ากับการทำความเข้าใจข้อความภาษาโปรตุเกส

กรณีการใช้งานและกลุ่มเป้าหมาย

Tucano มุ่งเป้าไปที่นักวิจัยและนักพัฒนาที่ทำงานด้านการประมวลผลภาษาธรรมชาติสำหรับงานภาษาโปรตุเกสเป็นหลัก กรณีการใช้งานที่เป็นไปได้ ได้แก่ การสร้างข้อความ การใช้เป็นเกณฑ์วัด (benchmark) สำหรับการสร้างแบบจำลองภาษา การปรับแต่งสำหรับแอปพลิเคชันภาษาโปรตุเกสเฉพาะโดเมน และการเป็นฐานอ้างอิงเชิงวิจัยเพื่อศึกษาพฤติกรรมของโมเดลในสภาพแวดล้อมที่มีทรัพยากรภาษาน้อย การมีโมเดลหลายขนาดช่วยรองรับสถานการณ์การนำไปใช้งานที่หลากหลาย ตั้งแต่การทดลองในสถาบันด้วยฮาร์ดแวร์ที่จำกัด ไปจนถึงงานวิจัยเชิงประยุกต์ที่ต้องใช้ทรัพยากรมากกว่า

เนื่องจากโมเดลถูกเผยแพร่ภายใต้สัญญาอนุญาต Apache 2.0 ที่เอื้อให้ใช้งานได้อย่างเสรีพร้อมน้ำหนักแบบเปิด (open weights) จึงสามารถนำไปใช้ ปรับเปลี่ยน และแจกจ่ายต่อได้อย่างอิสระ ทำให้เข้าถึงได้สำหรับชุมชนที่กว้างขวาง รวมถึงผู้ที่ไม่มีสิทธิ์เข้าถึง API ของโมเดลที่เป็นกรรมสิทธิ์

สถานะปัจจุบัน

ชุดโมเดล Tucano ปัจจุบันถูกเก็บถาวร (archived) หมายความว่าการพัฒนาอย่างต่อเนื่องได้สิ้นสุดลงแล้ว น้ำหนัก โค้ด และเอกสารประกอบที่เกี่ยวข้องยังคงเข้าถึงได้สาธารณะผ่านที่เก็บ GitHub ของโครงการเพื่อใช้เป็นข้อมูลอ้างอิงและการใช้งานต่อเนื่องโดยชุมชนวิจัย การเผยแพร่ผลการค้นพบใน Patterns ในปี 2025 ทำให้มีบันทึกที่ผ่านการตรวจสอบโดยผู้ทรงคุณวุฒิ (peer-reviewed) เกี่ยวกับวิธีการ ข้อมูลการฝึก และผลการประเมินที่เกี่ยวข้องกับโครงการ ซึ่งช่วยสนับสนุนความสามารถในการทำซ้ำ (reproducibility) และการศึกษาต่อ

รายงาน