Transformer Apache 2.0 Yes
Português

ইনপুট

text

আউটপুট

text

বিভাগসমূহ

থিমসমূহ

generative ainlpresearch

Tucano হল একটি ওপেন-ওয়েটস ট্রান্সফর্মার ভাষার মডেলের পরিবার যা ব্রাজিলে উন্নত হয়েছে এবং একচেটিয়াভাবে পর্তুগিজ ভাষার টেক্সটে প্রশিক্ষিত। মডেলগুলি GigaVerbo-তে প্রাক-প্রশিক্ষিত হয়েছে, যা প্রায় 200 বিলিয়ন অদ্বিতীয় পর্তুগিজ টোকেনের একটি ডেটাসেট, এবং এটি 160 মিলিয়ন থেকে 2.4 বিলিয়ন প্যারামিটার পর্যন্ত চারটি আকারে উপলব্ধ।

ফাইন-টিউনড ভেরিয়েন্টগুলির মধ্যে নির্দেশনা অনুসরণকারী এবং পছন্দ-অপ্টিমাইজড সংস্করণ অন্তর্ভুক্ত রয়েছে, এবং সম্পর্কিত মাল্টিমোডাল ডেরিভেটিভগুলি ViTucano নামের অধীনে প্রকাশিত হয়েছে। Tucano গবেষক এবং ডেভেলপারদের জন্য ডিজাইন করা হয়েছে যারা পর্তুগিজ ভাষায় প্রাকৃতিক ভাষা প্রক্রিয়াকরণ কাজের উপর কাজ করছেন, যা ঐতিহাসিকভাবে বৃহৎ আকারের ভাষার মডেল উন্নয়নে কম প্রতিনিধিত্বশীল।

প্রকল্পটি 2025 সালের একটি পেপারে নথিবদ্ধ করা হয়েছে যা Patterns জার্নালে প্রকাশিত হয়েছে এবং এটি Apache 2.0 লাইসেন্সের অধীনে মুক্তি পেয়েছে, যার ওজন এবং কোড পাবলিকভাবে GitHub-এ উপলব্ধ। মডেল সিরিজটি বর্তমানে আর্কাইভ করা হয়েছে।

পটভূমি এবং উন্নয়ন

Tucano ব্রাজিলে তৈরি করা হয়েছিল একটি নিবেদিত প্রচেষ্টার অংশ হিসেবে, যা বিশেষভাবে পর্তুগিজ টেক্সটের উপর প্রশিক্ষিত বৃহৎ আকারের ভাষা মডেলের অভাব মোকাবেলা করতে। যদিও অনেক প্রখ্যাত ভাষা মডেল প্রধানত ইংরেজি ভাষার কর্পাসের উপর প্রশিক্ষিত, পর্তুগিজ—যা ব্রাজিল, পর্তুগাল এবং অন্যান্য দেশগুলোতে ২৫০ মিলিয়নেরও বেশি মানুষের দ্বারা বলা হয়—ঐতিহাসিকভাবে ভিত্তি মডেল গবেষণায় কম মনোযোগ পেয়েছে। Tucano প্রকল্পটি একটি বৃহৎ, উচ্চ-মানের পর্তুগিজ ডেটাসেট ব্যবহার করে ভিত্তি থেকে ট্রান্সফর্মার-ভিত্তিক মডেল তৈরি করে এই ফাঁকটি পূরণ করার লক্ষ্য নিয়েছিল।

মডেলগুলো GigaVerbo-তে পূর্ব-প্রশিক্ষিত হয়েছে, যা প্রায় ২০০ বিলিয়ন ডিডুপ্লিকেটেড পর্তুগিজ টোকেনের একটি কর্পাস যা স্কেলে শক্তিশালী ভাষা মডেলিং সমর্থন করার জন্য তৈরি করা হয়েছে। প্রকল্পটি Tucano: Advancing Neural Text Generation for Portuguese শীর্ষক পত্রিকায় প্রকাশিত হয়েছে, যা Patterns জার্নালে ২০২৫ সালে প্রকাশিত হয়, এবং সমস্ত ওজন এবং প্রশিক্ষণ কোড পাবলিকলি GitHub-এ Apache 2.0 লাইসেন্সের অধীনে উপলব্ধ।

মডেল ভ্যারিয়েন্ট এবং ফাইন-টিউনড সংস্করণ

Tucano পরিবারের চারটি বেস মডেল আকার রয়েছে, যা গবেষক এবং ডেভেলপারদের তাদের কম্পিউটেশনাল সীমাবদ্ধতা এবং কাজের প্রয়োজনীয়তার জন্য উপযুক্ত একটি মডেল নির্বাচন করতে দেয়:

  • Tucano-160m – ১৬০ মিলিয়ন প্যারামিটার
  • Tucano-630m – ৬৩০ মিলিয়ন প্যারামিটার
  • Tucano-1b1 – প্রায় ১.১ বিলিয়ন প্যারামিটার
  • Tucano-2b4 – প্রায় ২.৪ বিলিয়ন প্যারামিটার

বেস পূর্ব-প্রশিক্ষিত মডেলগুলির পাশাপাশি, প্রকল্পটি কয়েকটি ফাইন-টিউনড ডেরিভেটিভ তৈরি করেছে। Tucano-SFT এবং Tucano-DPO যথাক্রমে সুপারভাইজড ফাইন-টিউনিং এবং ডাইরেক্ট প্রেফারেন্স অপটিমাইজেশন ভ্যারিয়েন্ট উপস্থাপন করে, যখন Tucano-2b4-Instruct বৃহত্তম বেস মডেলের একটি নির্দেশনা অনুসরণকারী সংস্করণ। এই ফাইন-টিউনড সংস্করণগুলি বেস মডেলগুলির ব্যবহারিকতা কথোপকথন এবং কাজ-ভিত্তিক অ্যাপ্লিকেশনগুলির দিকে প্রসারিত করে।

সম্পর্কিত মাল্টিমোডাল মডেল, ViTucano-1b5-v1 এবং ViTucano-2b8-v1, ViTucano নামের অধীনে প্রকাশিত হয়েছে, যা পর্তুগিজ টেক্সট বোঝার পাশাপাশি ভিজ্যুয়াল মোডালিটিগুলি অন্তর্ভুক্ত করে এমন ডাউনস্ট্রিম কাজের ইঙ্গিত দেয়।

ব্যবহার কেস এবং উদ্দেশ্যপ্রণোদিত শ্রোতা

Tucano প্রধানত গবেষক এবং ডেভেলপারদের জন্য ডিজাইন করা হয়েছে যারা পর্তুগিজ ভাষায় প্রাকৃতিক ভাষা প্রক্রিয়াকরণ কাজ করছেন। সম্ভাব্য ব্যবহার কেসগুলির মধ্যে রয়েছে টেক্সট উৎপাদন, ভাষা মডেলিং বেঞ্চমার্ক, ডোমেইন-নির্দিষ্ট পর্তুগিজ অ্যাপ্লিকেশনের জন্য ফাইন-টিউনিং, এবং নিম্ন-সম্পদ ভাষা সেটিংসে মডেল আচরণ অধ্যয়ন করার জন্য একটি গবেষণা ভিত্তি হিসেবে। একাধিক মডেল আকারের উপলব্ধতা বিভিন্ন স্থাপনার পরিস্থিতিকে সমর্থন করে, সীমিত হার্ডওয়্যার উপর একাডেমিক পরীক্ষামূলক কাজ থেকে শুরু করে আরও সম্পদ-গুরুতর প্রয়োগ গবেষণা পর্যন্ত।

যেহেতু মডেলগুলি উন্মুক্ত ওজন সহ অনুমোদিত Apache 2.0 লাইসেন্সের অধীনে প্রকাশিত হয়েছে, সেগুলি মুক্তভাবে ব্যবহার, পরিবর্তন এবং পুনঃবিতরণ করা যেতে পারে, যা একটি বিস্তৃত সম্প্রদায়ের জন্য প্রবেশযোগ্য করে তোলে, যার মধ্যে রয়েছে যাদের মালিকানা মডেল API-তে প্রবেশ নেই।

বর্তমান অবস্থা

Tucano মডেল সিরিজ বর্তমানে আর্কাইভ করা হয়েছে, যার মানে সক্রিয় উন্নয়ন শেষ হয়েছে। ওজন, কোড এবং সংশ্লিষ্ট ডকুমেন্টেশন গবেষণা সম্প্রদায়ের জন্য রেফারেন্স এবং অব্যাহত ব্যবহারের জন্য প্রকল্পের GitHub রিপোজিটরির মাধ্যমে পাবলিকলি অ্যাক্সেসযোগ্য রয়েছে। ২০২৫ সালে Patterns এ প্রকাশিত ফলাফলগুলি প্রকল্পের সাথে সম্পর্কিত পদ্ধতি, প্রশিক্ষণ ডেটা এবং মূল্যায়ন ফলাফলের একটি পিয়ার-রিভিউড রেকর্ড প্রদান করে, পুনরুত্পাদনযোগ্যতা এবং আরও গবেষণাকে সমর্থন করে।

রিপোর্ট