ٽرانسفارمر Apache 2.0 Yes
Português

ان پُٽ

text

آئوٽ پُٽ

text

ٿيمز

generative ainlpresearch

Tucano اوپن-ويٽس ٽرانسفارمر ٻوليءَ جي ماڊلز جو هڪ خاندان آهي، جيڪو برازيل ۾ تيار ڪيو ويو آهي ۽ خاص طور تي پرتگالي ٻوليءَ جي متن تي تربيت ڏني وئي آهي. ماڊلز کي GigaVerbo تي اڳواٽ تربيت ڏني وئي، جيڪو تقريباً 200 ارب ڊِڊوپليڪيٽ ڪيل پرتگالي ٽوڪنز جو هڪ ڊيٽا سيٽ آهي، ۽ اهي 160 ملين کان 2.4 ارب پيرا ميٽرن تائين چار سائزن ۾ موجود آهن.

فائن-ٽيونڊ ڪيل مختلف صورتن ۾ هدايت جي پيروي ڪندڙ ۽ ترجيح-بهتر ڪيل نسخا شامل آهن، ۽ لاڳاپيل ملٽي موڊل نڪتل شيون ViTucano نالي هيٺ جاري ڪيون ويون. Tucano انهن محققن ۽ ڊولپرن لاءِ آهي جيڪي پرتگالي ۾ قدرتي ٻوليءَ جي پروسيسنگ جي ڪمن تي ڪم ڪن ٿا—هڪ اهڙي ٻولي جيڪا تاريخي طور تي وڏي پيماني جي ٻولي ماڊل ڊولپمينٽ ۾ گهٽ نمائندگي رکي ٿي.

هي منصوبو 2025 ۾ Patterns جرنل ۾ شايع ٿيل هڪ مقالي ۾ دستاويز ڪيو ويو آهي ۽ Apache 2.0 لائسنس تحت جاري ڪيو ويو آهي، جنهن سان وزن (weights) ۽ ڪوڊ GitHub تي عوامي طور دستياب آهن. ماڊل سيريز هن وقت آرڪائيو ڪئي وئي آهي.

پس منظر ۽ ترقي

Tucano برازيل ۾ تيار ڪيو ويو هڪ وقف ڪيل ڪوشش طور، جنهن جو مقصد خاص طور تي پرتگالي متن تي تربيت يافته وڏي پيماني جي ٻوليءَ جي ماڊلز جي کوٽ کي پورو ڪرڻ هو. جڏهن ته ڪيترائي نمايان ٻوليءَ جا ماڊل گهڻو ڪري انگريزي ٻوليءَ جي ڪورپس تي تربيت يافته ٿين ٿا، پرتگالي—جيڪا برازيل، پرتگال ۽ ٻين ملڪن ۾ 250 ملين کان وڌيڪ ماڻهن پاران ڳالهايون وڃن ٿيون—تاريخي طور تي بنيادي ماڊل ريسرچ ۾ گهٽ ڌيان حاصل ڪيو آهي. Tucano منصوبي جو مقصد هن خال کي ڀرڻ هو، يعني شروعات کان ئي ٽرانسفارمر-بنياد ماڊلز ٺاهي، وڏي ۽ اعليٰ معيار واري پرتگالي ڊيٽا سيٽ استعمال ڪندي.

ماڊلز کي GigaVerbo تي اڳ-تربيت ڏني وئي، جيڪو تقريباً 200 ارب ڊڊپليڪيٽ ٿيل پرتگالي ٽوڪنز جو هڪ ڪورپس آهي، جيڪو وڏي پيماني تي مضبوط ٻوليءَ جي ماڊلنگ کي سهارو ڏيڻ لاءِ گڏ ڪيو ويو. هي منصوبي جو دستاويز اهو پيپر ۾ ڏنل آهي Tucano: Advancing Neural Text Generation for Portuguese، جيڪو 2025 ۾ جرنل Patterns ۾ شايع ٿيو، ۽ سمورا وزن ۽ تربيت جو ڪوڊ GitHub تي Apache 2.0 لائسنس تحت عوامي طور موجود آهن.

ماڊل جا قسم ۽ فائن-ٽيونڊ ورجن

Tucano خاندان ۾ چار بنيادي ماڊل سائز شامل آهن، جيڪي محققن ۽ ڊولپرن کي اجازت ڏين ٿا ته هو پنهنجي ڪمپيوٽيشنل حدن ۽ ڪم جي گهرجن مطابق مناسب ماڊل چونڊي سگهن:

  • Tucano-160m – 160 ملين پيرا ميٽرز
  • Tucano-630m – 630 ملين پيرا ميٽرز
  • Tucano-1b1 – تقريباً 1.1 ارب پيرا ميٽرز
  • Tucano-2b4 – تقريباً 2.4 ارب پيرا ميٽرز

بنيادي اڳ-تربيت يافته ماڊلز کان علاوه، منصوبي ڪيترائي فائن-ٽيونڊ نڪتل تيار ڪيا. Tucano-SFT ۽ Tucano-DPO ترتيبوار supervised fine-tuning ۽ direct preference optimization جا ورجن ظاهر ڪن ٿا، جڏهن ته Tucano-2b4-Instruct سڀ کان وڏي بنيادي ماڊل جو هڪ instruction-following ورزن آهي. اهي فائن-ٽيونڊ ورجن بنيادي ماڊلز جي افاديت کي وڌائين ٿا، انهن کي گفتگو-مرڪوز ۽ ڪم-مرڪوز ايپليڪيشنن ڏانهن وڌيڪ موزون بڻائين ٿا.

لاڳاپيل ملٽي موڊل ماڊلز، ViTucano-1b5-v1 ۽ ViTucano-2b8-v1، پڻ ViTucano نالي هيٺ جاري ڪيا ويا، جيڪي هيٺين سطح جي ڪم ڏانهن اشارو ڪن ٿا جنهن ۾ پرتگالي متن جي سمجھ سان گڏ بصري موڊالٽيز شامل ڪيون وڃن ٿيون.

استعمال جا ڪيس ۽ ارادو ڪيل سامعين

Tucano بنيادي طور انهن محققن ۽ ڊولپرن لاءِ آهي جيڪي پرتگالي ۾ قدرتي ٻولي پروسيسنگ (NLP) جي ڪمن تي ڪم ڪري رهيا آهن. ممڪن استعمال جا ڪيس شامل آهن: متن جي تخليق، ٻوليءَ جي ماڊلنگ جا بينچ مارڪ، مخصوص ڊومين لاءِ پرتگالي ايپليڪيشنن تي فائن-ٽيوننگ، ۽ گهٽ وسيلن واري ٻوليءَ جي حالتن ۾ ماڊل جي رويي جو مطالعو ڪرڻ لاءِ ريسرچ بيس لائين طور. ڪيترن ئي ماڊل سائزن جي دستيابي مختلف ڊپلائيمينٽ منظرنامن کي سپورٽ ڪري ٿي—محدود هارڊويئر تي تعليمي تجربن کان وٺي وڌيڪ وسيلن تي ٻڌل لاڳو ريسرچ تائين.

ڇو ته ماڊلز permissive Apache 2.0 لائسنس تحت کليل وزنن سان جاري ڪيا ويا آهن، انهن کي آزاديءَ سان استعمال، تبديل، ۽ ٻيهر ورهايو وڃي سگهي ٿو، جنهن ڪري اهي هڪ وسيع ڪميونٽي لاءِ دستياب ٿين ٿا، بشمول انهن ماڻهن جي جن وٽ ملڪيت واري ماڊل API تائين رسائي ناهي.

موجوده حيثيت

Tucano ماڊل سيريز هن وقت آرڪائيو ڪئي وئي آهي، يعني فعال ترقي ختم ٿي چڪي آهي. وزن، ڪوڊ، ۽ لاڳاپيل دستاويز منصوبي جي GitHub ريسرچ ريپوزٽري ذريعي عوامي طور دستياب رهن ٿا، جيئن ريفرنس ۽ ريسرچ ڪميونٽي طرفان جاري استعمال لاءِ. 2025 ۾ Patterns ۾ نتيجن جي اشاعت منصوبي سان لاڳاپيل طريقيڪار، تربيت واري ڊيٽا، ۽ تشخيصي نتيجن جو peer-reviewed رڪارڊ فراهم ڪري ٿي، جيڪا ٻيهر پيدا ڪرڻ (reproducibility) ۽ وڌيڪ مطالعي جي حمايت ڪري ٿي.

رپورٽ