Tucano

পটভূমি ও উন্নয়ন

টুকানো ব্রাজিলে পর্তুগিজ ভাষার পাঠ্যভিত্তিক বিশেষভাবে প্রশিক্ষিত বৃহৎ আকারের ভাষা মডেলের ঘাটতি মোকাবিলার জন্য একটি নিবেদিত উদ্যোগ হিসেবে উন্নয়ন করা হয়। বহু সুপরিচিত ভাষা মডেল মূলত ইংরেজি ভাষার কর্পাসে প্রশিক্ষিত হলেও, ব্রাজিল, পর্তুগাল এবং অন্যান্য দেশে ২৫০ মিলিয়নেরও বেশি মানুষের দ্বারা কথিত পর্তুগিজ ঐতিহাসিকভাবে ফাউন্ডেশন মডেল গবেষণায় তুলনামূলকভাবে কম মনোযোগ পেয়েছে। টুকানো প্রকল্পটি একটি বড়, উচ্চমানের পর্তুগিজ ডেটাসেট ব্যবহার করে শুরু থেকেই ট্রান্সফরমার-ভিত্তিক মডেল গড়ে এই ব্যবধান পূরণ করার লক্ষ্য নিয়েছিল।

মডেলগুলো প্রি-ট্রেইন করা হয় GigaVerbo-তে—প্রায় ২০০ বিলিয়ন ডিডুপ্লিকেটেড পর্তুগিজ টোকেনের একটি কর্পাস, যা স্কেলে শক্তিশালী ভাষা মডেলিংকে সমর্থন করার জন্য একত্র করা হয়েছে। প্রকল্পটি ২০২৫ সালে জার্নাল Patterns-এ প্রকাশিত প্রবন্ধ Tucano: Advancing Neural Text Generation for Portuguese-এ নথিভুক্ত করা হয়েছে, এবং সব ওজন ও প্রশিক্ষণ কোড GitHub-এ Apache 2.0 লাইসেন্সের অধীনে সর্বজনীনভাবে উপলব্ধ।

মডেল ভ্যারিয়েন্ট ও ফাইন-টিউনড সংস্করণ

টুকানো পরিবার চারটি বেস মডেল আকার জুড়ে বিস্তৃত, যা গবেষক ও ডেভেলপারদের তাদের গণনাগত সীমাবদ্ধতা ও কাজের চাহিদা অনুযায়ী উপযুক্ত মডেল বেছে নিতে সহায়তা করে:

Tucano-160m – ১৬০ মিলিয়ন প্যারামিটার
Tucano-630m – ৬৩০ মিলিয়ন প্যারামিটার
Tucano-1b1 – প্রায় ১.১ বিলিয়ন প্যারামিটার
Tucano-2b4 – প্রায় ২.৪ বিলিয়ন প্যারামিটার

বেস প্রি-ট্রেইনড মডেলগুলোর পাশাপাশি, প্রকল্পটি বেশ কয়েকটি ফাইন-টিউনড ডেরিভেটিভ তৈরি করেছে। Tucano-SFT এবং Tucano-DPO যথাক্রমে সুপারভাইজড ফাইন-টিউনিং এবং ডাইরেক্ট প্রেফারেন্স অপ্টিমাইজেশন ভ্যারিয়েন্টকে উপস্থাপন করে, আর Tucano-2b4-Instruct হলো সবচেয়ে বড় বেস মডেলের একটি নির্দেশনা অনুসরণকারী সংস্করণ। এই ফাইন-টিউনড সংস্করণগুলো বেস মডেলগুলোর ব্যবহারযোগ্যতা কথোপকথনমূলক ও কাজ-কেন্দ্রিক অ্যাপ্লিকেশনের দিকে প্রসারিত করে।

সম্পর্কিত মাল্টিমোডাল মডেলগুলো, ViTucano-1b5-v1 এবং ViTucano-2b8-v1, ViTucano নামের অধীনে-ও প্রকাশ করা হয়েছিল, যা পর্তুগিজ পাঠ্য বোঝার পাশাপাশি ভিজ্যুয়াল মডালিটি অন্তর্ভুক্ত করে এমন ডাউনস্ট্রিম কাজের ইঙ্গিত দেয়।

ব্যবহার ক্ষেত্র ও লক্ষ্য শ্রোতা

টুকানো মূলত পর্তুগিজ ভাষায় প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP) কাজের ওপর কাজ করা গবেষক ও ডেভেলপারদের জন্য লক্ষ্য করা হয়েছে। সম্ভাব্য ব্যবহার ক্ষেত্রগুলোর মধ্যে রয়েছে পাঠ্য উৎপাদন, ভাষা মডেলিং বেঞ্চমার্ক, নির্দিষ্ট ডোমেইনভিত্তিক পর্তুগিজ অ্যাপ্লিকেশনের জন্য ফাইন-টিউনিং, এবং কম সম্পদযুক্ত ভাষা পরিবেশে মডেলের আচরণ অধ্যয়নের জন্য একটি গবেষণা বেসলাইন হিসেবে ব্যবহার। একাধিক মডেল আকারের প্রাপ্যতা সীমিত হার্ডওয়্যারে একাডেমিক পরীক্ষানিরীক্ষা থেকে শুরু করে আরও বেশি সম্পদ-নির্ভর প্রয়োগমুখী গবেষণা পর্যন্ত বিভিন্ন ধরনের ডিপ্লয়মেন্ট পরিস্থিতিকে সমর্থন করে।

মডেলগুলো উন্মুক্ত ওজনসহ অনুমতিমূলক Apache 2.0 লাইসেন্সের অধীনে প্রকাশিত হওয়ায়, সেগুলো স্বাধীনভাবে ব্যবহার, পরিবর্তন এবং পুনর্বিতরণ করা যায়—ফলে এগুলো এমন বিস্তৃত কমিউনিটির কাছে সহজলভ্য হয়, যাদের কাছে প্রোপ্রাইটারি মডেল API-এর অ্যাক্সেস নেই।

বর্তমান অবস্থা

টুকানো মডেল সিরিজটি বর্তমানে আর্কাইভ করা হয়েছে, অর্থাৎ সক্রিয় উন্নয়ন শেষ হয়েছে। ওজন, কোড এবং সংশ্লিষ্ট ডকুমেন্টেশন প্রকল্পের GitHub রিপোজিটরির মাধ্যমে রেফারেন্স ও গবেষণা কমিউনিটির অব্যাহত ব্যবহারের জন্য সর্বজনীনভাবে উপলব্ধ রয়েছে। ২০২৫ সালে Patterns-এ ফলাফল প্রকাশ করা প্রকল্পের সাথে সম্পর্কিত পদ্ধতি, প্রশিক্ষণ ডেটা এবং মূল্যায়ন ফলাফলের একটি পিয়ার-রিভিউড রেকর্ড প্রদান করে, যা পুনরুত্পাদনযোগ্যতা এবং আরও গবেষণাকে সহায়তা করে।

ଇନ୍ପୁଟ

ଆଉଟପୁଟ

ଶ୍ରେଣୀଗୁଡିକ

ଥିମ୍ସ

পটভূমি ও উন্নয়ন

মডেল ভ্যারিয়েন্ট ও ফাইন-টিউনড সংস্করণ

ব্যবহার ক্ষেত্র ও লক্ষ্য শ্রোতা

বর্তমান অবস্থা