Tucano

پس منظر ۽ ترقي

Tucano برازيل ۾ تيار ڪيو ويو هڪ وقف ڪيل ڪوشش طور، جنهن جو مقصد خاص طور تي پرتگالي متن تي تربيت يافته وڏي پيماني جي ٻوليءَ جي ماڊلز جي کوٽ کي پورو ڪرڻ هو. جڏهن ته ڪيترائي نمايان ٻوليءَ جا ماڊل گهڻو ڪري انگريزي ٻوليءَ جي ڪورپس تي تربيت يافته ٿين ٿا، پرتگالي—جيڪا برازيل، پرتگال ۽ ٻين ملڪن ۾ 250 ملين کان وڌيڪ ماڻهن پاران ڳالهايون وڃن ٿيون—تاريخي طور تي بنيادي ماڊل ريسرچ ۾ گهٽ ڌيان حاصل ڪيو آهي. Tucano منصوبي جو مقصد هن خال کي ڀرڻ هو، يعني شروعات کان ئي ٽرانسفارمر-بنياد ماڊلز ٺاهي، وڏي ۽ اعليٰ معيار واري پرتگالي ڊيٽا سيٽ استعمال ڪندي.

ماڊلز کي GigaVerbo تي اڳ-تربيت ڏني وئي، جيڪو تقريباً 200 ارب ڊڊپليڪيٽ ٿيل پرتگالي ٽوڪنز جو هڪ ڪورپس آهي، جيڪو وڏي پيماني تي مضبوط ٻوليءَ جي ماڊلنگ کي سهارو ڏيڻ لاءِ گڏ ڪيو ويو. هي منصوبي جو دستاويز اهو پيپر ۾ ڏنل آهي Tucano: Advancing Neural Text Generation for Portuguese، جيڪو 2025 ۾ جرنل Patterns ۾ شايع ٿيو، ۽ سمورا وزن ۽ تربيت جو ڪوڊ GitHub تي Apache 2.0 لائسنس تحت عوامي طور موجود آهن.

ماڊل جا قسم ۽ فائن-ٽيونڊ ورجن

Tucano خاندان ۾ چار بنيادي ماڊل سائز شامل آهن، جيڪي محققن ۽ ڊولپرن کي اجازت ڏين ٿا ته هو پنهنجي ڪمپيوٽيشنل حدن ۽ ڪم جي گهرجن مطابق مناسب ماڊل چونڊي سگهن:

Tucano-160m – 160 ملين پيرا ميٽرز
Tucano-630m – 630 ملين پيرا ميٽرز
Tucano-1b1 – تقريباً 1.1 ارب پيرا ميٽرز
Tucano-2b4 – تقريباً 2.4 ارب پيرا ميٽرز

بنيادي اڳ-تربيت يافته ماڊلز کان علاوه، منصوبي ڪيترائي فائن-ٽيونڊ نڪتل تيار ڪيا. Tucano-SFT ۽ Tucano-DPO ترتيبوار supervised fine-tuning ۽ direct preference optimization جا ورجن ظاهر ڪن ٿا، جڏهن ته Tucano-2b4-Instruct سڀ کان وڏي بنيادي ماڊل جو هڪ instruction-following ورزن آهي. اهي فائن-ٽيونڊ ورجن بنيادي ماڊلز جي افاديت کي وڌائين ٿا، انهن کي گفتگو-مرڪوز ۽ ڪم-مرڪوز ايپليڪيشنن ڏانهن وڌيڪ موزون بڻائين ٿا.

لاڳاپيل ملٽي موڊل ماڊلز، ViTucano-1b5-v1 ۽ ViTucano-2b8-v1، پڻ ViTucano نالي هيٺ جاري ڪيا ويا، جيڪي هيٺين سطح جي ڪم ڏانهن اشارو ڪن ٿا جنهن ۾ پرتگالي متن جي سمجھ سان گڏ بصري موڊالٽيز شامل ڪيون وڃن ٿيون.

استعمال جا ڪيس ۽ ارادو ڪيل سامعين

Tucano بنيادي طور انهن محققن ۽ ڊولپرن لاءِ آهي جيڪي پرتگالي ۾ قدرتي ٻولي پروسيسنگ (NLP) جي ڪمن تي ڪم ڪري رهيا آهن. ممڪن استعمال جا ڪيس شامل آهن: متن جي تخليق، ٻوليءَ جي ماڊلنگ جا بينچ مارڪ، مخصوص ڊومين لاءِ پرتگالي ايپليڪيشنن تي فائن-ٽيوننگ، ۽ گهٽ وسيلن واري ٻوليءَ جي حالتن ۾ ماڊل جي رويي جو مطالعو ڪرڻ لاءِ ريسرچ بيس لائين طور. ڪيترن ئي ماڊل سائزن جي دستيابي مختلف ڊپلائيمينٽ منظرنامن کي سپورٽ ڪري ٿي—محدود هارڊويئر تي تعليمي تجربن کان وٺي وڌيڪ وسيلن تي ٻڌل لاڳو ريسرچ تائين.

ڇو ته ماڊلز permissive Apache 2.0 لائسنس تحت کليل وزنن سان جاري ڪيا ويا آهن، انهن کي آزاديءَ سان استعمال، تبديل، ۽ ٻيهر ورهايو وڃي سگهي ٿو، جنهن ڪري اهي هڪ وسيع ڪميونٽي لاءِ دستياب ٿين ٿا، بشمول انهن ماڻهن جي جن وٽ ملڪيت واري ماڊل API تائين رسائي ناهي.

موجوده حيثيت

Tucano ماڊل سيريز هن وقت آرڪائيو ڪئي وئي آهي، يعني فعال ترقي ختم ٿي چڪي آهي. وزن، ڪوڊ، ۽ لاڳاپيل دستاويز منصوبي جي GitHub ريسرچ ريپوزٽري ذريعي عوامي طور دستياب رهن ٿا، جيئن ريفرنس ۽ ريسرچ ڪميونٽي طرفان جاري استعمال لاءِ. 2025 ۾ Patterns ۾ نتيجن جي اشاعت منصوبي سان لاڳاپيل طريقيڪار، تربيت واري ڊيٽا، ۽ تشخيصي نتيجن جو peer-reviewed رڪارڊ فراهم ڪري ٿي، جيڪا ٻيهر پيدا ڪرڻ (reproducibility) ۽ وڌيڪ مطالعي جي حمايت ڪري ٿي.

ان پُٽ

آئوٽ پُٽ

زمرا

ٿيمز

پس منظر ۽ ترقي

ماڊل جا قسم ۽ فائن-ٽيونڊ ورجن

استعمال جا ڪيس ۽ ارادو ڪيل سامعين

موجوده حيثيت