Tucano

พื้นหลังและการพัฒนา

Tucano ได้รับการพัฒนาขึ้นในบราซิลด้วยความพยายามโดยเฉพาะเพื่อแก้ปัญหาการขาดแคลนโมเดลภาษาขนาดใหญ่ที่ได้รับการฝึกมาโดยเฉพาะบนข้อความภาษาโปรตุเกส แม้ว่าโมเดลภาษาที่มีชื่อเสียงจำนวนมากจะถูกฝึกเป็นหลักจากคลังข้อมูลภาษาอังกฤษ แต่ภาษาโปรตุเกส—ซึ่งมีผู้พูดมากกว่า 250 ล้านคนทั่วบราซิล โปรตุเกส และประเทศอื่น ๆ—กลับได้รับความสนใจน้อยกว่าในงานวิจัยโมเดลพื้นฐานในเชิงประวัติศาสตร์ โครงการ Tucano มีเป้าหมายเพื่อปิดช่องว่างนี้ด้วยการสร้างโมเดลที่ใช้สถาปัตยกรรมแบบทรานส์ฟอร์เมอร์ตั้งแต่ต้น โดยใช้ชุดข้อมูลภาษาโปรตุเกสขนาดใหญ่ที่มีคุณภาพสูง

โมเดลเหล่านี้ถูกฝึกล่วงหน้าบน GigaVerbo ซึ่งเป็นคลังข้อมูลที่ประกอบด้วยโทเค็นภาษาโปรตุเกสที่ผ่านการตัดรายการซ้ำแล้วประมาณ 200 พันล้านโทเค็น เพื่อรองรับการสร้างแบบจำลองภาษาอย่างแข็งแกร่งในระดับขนาดใหญ่ โครงการนี้ได้รับการบันทึกไว้ในบทความ Tucano: Advancing Neural Text Generation for Portuguese ที่ตีพิมพ์ในวารสาร Patterns ในปี 2025 และน้ำหนักทั้งหมดรวมถึงโค้ดการฝึกสามารถเข้าถึงได้สาธารณะบน GitHub ภายใต้สัญญาอนุญาต Apache 2.0

รูปแบบของโมเดลและเวอร์ชันที่ปรับแต่งแล้ว

ตระกูล Tucano ครอบคลุมโมเดลพื้นฐาน 4 ขนาด ทำให้ผู้วิจัยและนักพัฒนาสามารถเลือกโมเดลที่เหมาะสมกับข้อจำกัดด้านการคำนวณและความต้องการของงานได้:

Tucano-160m – 160 ล้านพารามิเตอร์
Tucano-630m – 630 ล้านพารามิเตอร์
Tucano-1b1 – ประมาณ 1.1 พันล้านพารามิเตอร์
Tucano-2b4 – ประมาณ 2.4 พันล้านพารามิเตอร์

นอกเหนือจากโมเดลพื้นฐานที่ฝึกล่วงหน้าแล้ว โครงการยังได้สร้างอนุพันธ์ที่ปรับแต่งแล้วหลายรายการ Tucano-SFT และ Tucano-DPO แทนการปรับแต่งแบบมีผู้สอน (supervised fine-tuning) และการปรับให้เหมาะสมตามความชอบโดยตรง (direct preference optimization) ตามลำดับ ส่วน Tucano-2b4-Instruct คือเวอร์ชันที่ทำตามคำสั่งของโมเดลพื้นฐานขนาดใหญ่ที่สุด เวอร์ชันที่ปรับแต่งแล้วเหล่านี้ช่วยขยายประโยชน์ของโมเดลพื้นฐานไปสู่การใช้งานด้านการสนทนาและงานที่มุ่งเป้าหมาย

นอกจากนี้ยังมีการเปิดตัวโมเดลมัลติโหมดที่เกี่ยวข้อง ได้แก่ ViTucano-1b5-v1 และ ViTucano-2b8-v1 ภายใต้ชื่อ ViTucano ด้วย ซึ่งบ่งชี้ถึงงานต่อยอดที่ผสานความสามารถด้านภาพเข้ากับการทำความเข้าใจข้อความภาษาโปรตุเกส

กรณีการใช้งานและกลุ่มเป้าหมาย

Tucano มุ่งเป้าไปที่นักวิจัยและนักพัฒนาที่ทำงานด้านการประมวลผลภาษาธรรมชาติสำหรับงานภาษาโปรตุเกสเป็นหลัก กรณีการใช้งานที่เป็นไปได้ ได้แก่ การสร้างข้อความ การใช้เป็นเกณฑ์วัด (benchmark) สำหรับการสร้างแบบจำลองภาษา การปรับแต่งสำหรับแอปพลิเคชันภาษาโปรตุเกสเฉพาะโดเมน และการเป็นฐานอ้างอิงเชิงวิจัยเพื่อศึกษาพฤติกรรมของโมเดลในสภาพแวดล้อมที่มีทรัพยากรภาษาน้อย การมีโมเดลหลายขนาดช่วยรองรับสถานการณ์การนำไปใช้งานที่หลากหลาย ตั้งแต่การทดลองในสถาบันด้วยฮาร์ดแวร์ที่จำกัด ไปจนถึงงานวิจัยเชิงประยุกต์ที่ต้องใช้ทรัพยากรมากกว่า

เนื่องจากโมเดลถูกเผยแพร่ภายใต้สัญญาอนุญาต Apache 2.0 ที่เอื้อให้ใช้งานได้อย่างเสรีพร้อมน้ำหนักแบบเปิด (open weights) จึงสามารถนำไปใช้ ปรับเปลี่ยน และแจกจ่ายต่อได้อย่างอิสระ ทำให้เข้าถึงได้สำหรับชุมชนที่กว้างขวาง รวมถึงผู้ที่ไม่มีสิทธิ์เข้าถึง API ของโมเดลที่เป็นกรรมสิทธิ์

สถานะปัจจุบัน

ชุดโมเดล Tucano ปัจจุบันถูกเก็บถาวร (archived) หมายความว่าการพัฒนาอย่างต่อเนื่องได้สิ้นสุดลงแล้ว น้ำหนัก โค้ด และเอกสารประกอบที่เกี่ยวข้องยังคงเข้าถึงได้สาธารณะผ่านที่เก็บ GitHub ของโครงการเพื่อใช้เป็นข้อมูลอ้างอิงและการใช้งานต่อเนื่องโดยชุมชนวิจัย การเผยแพร่ผลการค้นพบใน Patterns ในปี 2025 ทำให้มีบันทึกที่ผ่านการตรวจสอบโดยผู้ทรงคุณวุฒิ (peer-reviewed) เกี่ยวกับวิธีการ ข้อมูลการฝึก และผลการประเมินที่เกี่ยวข้องกับโครงการ ซึ่งช่วยสนับสนุนความสามารถในการทำซ้ำ (reproducibility) และการศึกษาต่อ

อินพุต

เอาต์พุต

หมวดหมู่

ธีม

พื้นหลังและการพัฒนา

รูปแบบของโมเดลและเวอร์ชันที่ปรับแต่งแล้ว

กรณีการใช้งานและกลุ่มเป้าหมาย

สถานะปัจจุบัน