Tucano
ان پٹ
آؤٹ پٹ
زمرہ جات
تھیمز
Tucano ایک خاندان ہے اوپن ویٹس ٹرانسفارمر زبان ماڈلز کا جو برازیل میں تیار کیے گئے ہیں اور خاص طور پر پرتگالی زبان کے متن پر تربیت دی گئی ہے۔ ماڈلز کو GigaVerbo پر پیشگی تربیت دی گئی، جو تقریباً 200 ارب غیر دہرائی پرتگالی ٹوکنز کا ڈیٹا سیٹ ہے، اور یہ چار سائز میں دستیاب ہیں جو 160 ملین سے 2.4 ارب پیرا میٹرز تک ہیں۔
فائن ٹونڈ مختلف اقسام میں ہدایت کی پیروی کرنے والے اور ترجیح کے لحاظ سے بہتر ورژن شامل ہیں، اور متعلقہ ملٹی موڈل مشتقات ViTucano کے نام سے جاری کیے گئے ہیں۔ Tucano ان محققین اور ترقی دہندگان کے لیے ہے جو پرتگالی میں قدرتی زبان کی پروسیسنگ کے کاموں پر کام کر رہے ہیں، جو ایک زبان ہے جو بڑے پیمانے پر زبان ماڈل کی ترقی میں تاریخی طور پر کم نمائندگی رکھتی ہے۔
یہ منصوبہ 2025 میں Patterns نامی جریدے میں شائع ہونے والے ایک مقالے میں دستاویزی شکل میں موجود ہے اور یہ Apache 2.0 لائسنس کے تحت جاری کیا گیا ہے، جس کے وزن اور کوڈ عوامی طور پر GitHub پر دستیاب ہیں۔ ماڈل سیریز اس وقت محفوظ کی گئی ہے۔
پس منظر اور ترقی
Tucano برازیل میں ایک مخصوص کوشش کے طور پر تیار کیا گیا تاکہ پرتگالی متن پر تربیت یافتہ بڑے پیمانے پر زبان کے ماڈلز کی کمی کو پورا کیا جا سکے۔ جبکہ بہت سے نمایاں زبان کے ماڈلز بنیادی طور پر انگریزی زبان کے کارپس پر تربیت یافتہ ہیں، پرتگالی—جو برازیل، پرتگال، اور دیگر ممالک میں 250 ملین سے زائد لوگوں کی زبان ہے—تاریخی طور پر بنیاد ماڈل تحقیق میں کم توجہ حاصل کی ہے۔ Tucano پروجیکٹ کا مقصد ایک بڑے، اعلیٰ معیار کے پرتگالی ڈیٹا سیٹ کا استعمال کرتے ہوئے ٹرانسفارمر پر مبنی ماڈلز کو بنیادی طور پر تعمیر کرکے اس خلا کو بند کرنا تھا۔
ماڈلز کو GigaVerbo پر پہلے سے تربیت دی گئی، جو تقریباً 200 ارب غیر مکرر پرتگالی ٹوکن کا ایک کارپس ہے جو بڑے پیمانے پر مضبوط زبان کی ماڈلنگ کی حمایت کے لیے جمع کیا گیا۔ یہ پروجیکٹ Tucano: Advancing Neural Text Generation for Portuguese کے عنوان سے ایک مقالے میں دستاویزی شکل میں موجود ہے، جو 2025 میں Patterns جریدے میں شائع ہوا، اور تمام وزن اور تربیتی کوڈ عوامی طور پر GitHub پر Apache 2.0 لائسنس کے تحت دستیاب ہیں۔
ماڈل کی مختلف اقسام اور عمدہ ورژن
Tucano خاندان میں چار بنیادی ماڈل کے سائز شامل ہیں، جو محققین اور ترقی دہندگان کو اپنے کمپیوٹیشنل پابندیوں اور کام کی ضروریات کے مطابق ماڈل منتخب کرنے کی اجازت دیتے ہیں:
- Tucano-160m – 160 ملین پیرامیٹرز
- Tucano-630m – 630 ملین پیرامیٹرز
- Tucano-1b1 – تقریباً 1.1 بلین پیرامیٹرز
- Tucano-2b4 – تقریباً 2.4 بلین پیرامیٹرز
بنیادی پہلے سے تربیت یافتہ ماڈلز کے علاوہ، پروجیکٹ نے کئی عمدہ مشتقات تیار کیے۔ Tucano-SFT اور Tucano-DPO بالترتیب نگرانی کے تحت عمدہ تربیت اور براہ راست ترجیح کی اصلاح کے مختلف اقسام کی نمائندگی کرتے ہیں، جبکہ Tucano-2b4-Instruct سب سے بڑے بنیادی ماڈل کا ہدایت کی پیروی کرنے والا ورژن ہے۔ یہ عمدہ ورژن بنیادی ماڈلز کی افادیت کو بات چیت اور کام پر مبنی ایپلی کیشنز کی طرف بڑھاتے ہیں۔
متعلقہ ملٹی موڈل ماڈلز، ViTucano-1b5-v1 اور ViTucano-2b8-v1، بھی ViTucano کے نام کے تحت جاری کیے گئے، جو بصری طریقوں کو پرتگالی متن کی تفہیم کے ساتھ شامل کرنے کے لیے نیچے کی طرف کام کی تجویز دیتے ہیں۔
استعمال کے کیسز اور ہدف کا سامعین
Tucano بنیادی طور پر ان محققین اور ترقی دہندگان کے لیے ہے جو پرتگالی میں قدرتی زبان کی پروسیسنگ کے کاموں پر کام کر رہے ہیں۔ ممکنہ استعمال کے کیسز میں متن کی تخلیق، زبان کی ماڈلنگ کے بینچ مارکس، مخصوص ڈومین کے پرتگالی ایپلی کیشنز کے لیے عمدہ تربیت، اور کم وسائل والی زبان کی ترتیبات میں ماڈل کے رویے کا مطالعہ کرنے کے لیے تحقیق کا بنیادی معیار شامل ہیں۔ مختلف ماڈل کے سائز کی دستیابی مختلف تعیناتی کے منظرناموں کی حمایت کرتی ہے، محدود ہارڈ ویئر پر تعلیمی تجربات سے لے کر زیادہ وسائل طلب کرنے والی عملی تحقیق تک۔
چونکہ ماڈلز کو کھلے وزن کے ساتھ نرم Apache 2.0 لائسنس کے تحت جاری کیا گیا ہے، انہیں آزادانہ طور پر استعمال، ترمیم، اور دوبارہ تقسیم کیا جا سکتا ہے، جس سے انہیں ایک وسیع کمیونٹی کے لیے قابل رسائی بنایا جا رہا ہے جن میں وہ لوگ بھی شامل ہیں جنہیں خصوصی ماڈل APIs تک رسائی حاصل نہیں ہے۔
موجودہ حیثیت
Tucano ماڈل سیریز فی الحال محفوظ ہے، جس کا مطلب ہے کہ فعال ترقی ختم ہو چکی ہے۔ وزن، کوڈ، اور متعلقہ دستاویزات عوامی طور پر پروجیکٹ کے GitHub ریپوزٹری کے ذریعے حوالہ اور تحقیق کی کمیونٹی کے جاری استعمال کے لیے دستیاب ہیں۔ 2025 میں Patterns میں نتائج کی اشاعت پروجیکٹ سے وابستہ طریقہ کار، تربیتی ڈیٹا، اور تشخیصی نتائج کا ایک ہم مرتبہ جائزہ ریکارڈ فراہم کرتی ہے، جو دوبارہ پیدا کرنے کی صلاحیت اور مزید مطالعے کی حمایت کرتی ہے۔