ଟ୍ରାନ୍ସଫର୍ମର Apache 2.0 Yes
Português

ଇନ୍ପୁଟ

text

ଆଉଟପୁଟ

text

ଶ୍ରେଣୀଗୁଡିକ

ଥିମ୍ସ

generative ainlpresearch

Tucano হলো ওপেন-ওয়েটস ট্রান্সফরমার ভাষা মডেলগুলোর একটি পরিবার, যা ব্রাজিলে উন্নত করা হয়েছে এবং কেবলমাত্র পর্তুগিজ ভাষার পাঠ্যের ওপর প্রশিক্ষিত। মডেলগুলোকে প্রায় ২০০ বিলিয়ন ডিডুপ্লিকেটেড পর্তুগিজ টোকেনের একটি ডেটাসেট GigaVerbo-তে প্রি-ট্রেন করা হয়েছিল এবং এগুলো ১৬০ মিলিয়ন থেকে ২.৪ বিলিয়ন প্যারামিটারের মধ্যে চারটি আকারে উপলব্ধ।

ফাইন-টিউন করা ভ্যারিয়েন্টগুলোর মধ্যে নির্দেশনা অনুসরণকারী এবং পছন্দ-অপ্টিমাইজড সংস্করণ অন্তর্ভুক্ত রয়েছে, এবং সংশ্লিষ্ট মাল্টিমোডাল ডেরিভেটিভগুলো ViTucano নামের অধীনে প্রকাশ করা হয়েছিল। Tucano তৈরি করা হয়েছে গবেষক ও ডেভেলপারদের জন্য, যারা পর্তুগিজ ভাষায় প্রাকৃতিক ভাষা প্রক্রিয়াকরণ সংক্রান্ত কাজে নিয়োজিত—যে ভাষাটি ঐতিহাসিকভাবে বৃহৎ পরিসরের ভাষা মডেল উন্নয়নে কম প্রতিনিধিত্ব পেয়েছে।

প্রকল্পটি Patterns জার্নালে প্রকাশিত ২০২৫ সালের একটি প্রবন্ধে নথিভুক্ত করা হয়েছে এবং Apache 2.0 লাইসেন্সের অধীনে প্রকাশিত; ওজন (weights) ও কোড GitHub-এ সর্বসাধারণের জন্য উন্মুক্ত। মডেল সিরিজটি বর্তমানে আর্কাইভ করা হয়েছে।

পটভূমি ও উন্নয়ন

টুকানো ব্রাজিলে পর্তুগিজ ভাষার পাঠ্যভিত্তিক বিশেষভাবে প্রশিক্ষিত বৃহৎ আকারের ভাষা মডেলের ঘাটতি মোকাবিলার জন্য একটি নিবেদিত উদ্যোগ হিসেবে উন্নয়ন করা হয়। বহু সুপরিচিত ভাষা মডেল মূলত ইংরেজি ভাষার কর্পাসে প্রশিক্ষিত হলেও, ব্রাজিল, পর্তুগাল এবং অন্যান্য দেশে ২৫০ মিলিয়নেরও বেশি মানুষের দ্বারা কথিত পর্তুগিজ ঐতিহাসিকভাবে ফাউন্ডেশন মডেল গবেষণায় তুলনামূলকভাবে কম মনোযোগ পেয়েছে। টুকানো প্রকল্পটি একটি বড়, উচ্চমানের পর্তুগিজ ডেটাসেট ব্যবহার করে শুরু থেকেই ট্রান্সফরমার-ভিত্তিক মডেল গড়ে এই ব্যবধান পূরণ করার লক্ষ্য নিয়েছিল।

মডেলগুলো প্রি-ট্রেইন করা হয় GigaVerbo-তে—প্রায় ২০০ বিলিয়ন ডিডুপ্লিকেটেড পর্তুগিজ টোকেনের একটি কর্পাস, যা স্কেলে শক্তিশালী ভাষা মডেলিংকে সমর্থন করার জন্য একত্র করা হয়েছে। প্রকল্পটি ২০২৫ সালে জার্নাল Patterns-এ প্রকাশিত প্রবন্ধ Tucano: Advancing Neural Text Generation for Portuguese-এ নথিভুক্ত করা হয়েছে, এবং সব ওজন ও প্রশিক্ষণ কোড GitHub-এ Apache 2.0 লাইসেন্সের অধীনে সর্বজনীনভাবে উপলব্ধ।

মডেল ভ্যারিয়েন্ট ও ফাইন-টিউনড সংস্করণ

টুকানো পরিবার চারটি বেস মডেল আকার জুড়ে বিস্তৃত, যা গবেষক ও ডেভেলপারদের তাদের গণনাগত সীমাবদ্ধতা ও কাজের চাহিদা অনুযায়ী উপযুক্ত মডেল বেছে নিতে সহায়তা করে:

  • Tucano-160m – ১৬০ মিলিয়ন প্যারামিটার
  • Tucano-630m – ৬৩০ মিলিয়ন প্যারামিটার
  • Tucano-1b1 – প্রায় ১.১ বিলিয়ন প্যারামিটার
  • Tucano-2b4 – প্রায় ২.৪ বিলিয়ন প্যারামিটার

বেস প্রি-ট্রেইনড মডেলগুলোর পাশাপাশি, প্রকল্পটি বেশ কয়েকটি ফাইন-টিউনড ডেরিভেটিভ তৈরি করেছে। Tucano-SFT এবং Tucano-DPO যথাক্রমে সুপারভাইজড ফাইন-টিউনিং এবং ডাইরেক্ট প্রেফারেন্স অপ্টিমাইজেশন ভ্যারিয়েন্টকে উপস্থাপন করে, আর Tucano-2b4-Instruct হলো সবচেয়ে বড় বেস মডেলের একটি নির্দেশনা অনুসরণকারী সংস্করণ। এই ফাইন-টিউনড সংস্করণগুলো বেস মডেলগুলোর ব্যবহারযোগ্যতা কথোপকথনমূলক ও কাজ-কেন্দ্রিক অ্যাপ্লিকেশনের দিকে প্রসারিত করে।

সম্পর্কিত মাল্টিমোডাল মডেলগুলো, ViTucano-1b5-v1 এবং ViTucano-2b8-v1, ViTucano নামের অধীনে-ও প্রকাশ করা হয়েছিল, যা পর্তুগিজ পাঠ্য বোঝার পাশাপাশি ভিজ্যুয়াল মডালিটি অন্তর্ভুক্ত করে এমন ডাউনস্ট্রিম কাজের ইঙ্গিত দেয়।

ব্যবহার ক্ষেত্র ও লক্ষ্য শ্রোতা

টুকানো মূলত পর্তুগিজ ভাষায় প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP) কাজের ওপর কাজ করা গবেষক ও ডেভেলপারদের জন্য লক্ষ্য করা হয়েছে। সম্ভাব্য ব্যবহার ক্ষেত্রগুলোর মধ্যে রয়েছে পাঠ্য উৎপাদন, ভাষা মডেলিং বেঞ্চমার্ক, নির্দিষ্ট ডোমেইনভিত্তিক পর্তুগিজ অ্যাপ্লিকেশনের জন্য ফাইন-টিউনিং, এবং কম সম্পদযুক্ত ভাষা পরিবেশে মডেলের আচরণ অধ্যয়নের জন্য একটি গবেষণা বেসলাইন হিসেবে ব্যবহার। একাধিক মডেল আকারের প্রাপ্যতা সীমিত হার্ডওয়্যারে একাডেমিক পরীক্ষানিরীক্ষা থেকে শুরু করে আরও বেশি সম্পদ-নির্ভর প্রয়োগমুখী গবেষণা পর্যন্ত বিভিন্ন ধরনের ডিপ্লয়মেন্ট পরিস্থিতিকে সমর্থন করে।

মডেলগুলো উন্মুক্ত ওজনসহ অনুমতিমূলক Apache 2.0 লাইসেন্সের অধীনে প্রকাশিত হওয়ায়, সেগুলো স্বাধীনভাবে ব্যবহার, পরিবর্তন এবং পুনর্বিতরণ করা যায়—ফলে এগুলো এমন বিস্তৃত কমিউনিটির কাছে সহজলভ্য হয়, যাদের কাছে প্রোপ্রাইটারি মডেল API-এর অ্যাক্সেস নেই।

বর্তমান অবস্থা

টুকানো মডেল সিরিজটি বর্তমানে আর্কাইভ করা হয়েছে, অর্থাৎ সক্রিয় উন্নয়ন শেষ হয়েছে। ওজন, কোড এবং সংশ্লিষ্ট ডকুমেন্টেশন প্রকল্পের GitHub রিপোজিটরির মাধ্যমে রেফারেন্স ও গবেষণা কমিউনিটির অব্যাহত ব্যবহারের জন্য সর্বজনীনভাবে উপলব্ধ রয়েছে। ২০২৫ সালে Patterns-এ ফলাফল প্রকাশ করা প্রকল্পের সাথে সম্পর্কিত পদ্ধতি, প্রশিক্ষণ ডেটা এবং মূল্যায়ন ফলাফলের একটি পিয়ার-রিভিউড রেকর্ড প্রদান করে, যা পুনরুত্পাদনযোগ্যতা এবং আরও গবেষণাকে সহায়তা করে।

ରିପୋର୍ଟ