Tucano

དྲ་ཚིགས་ལ་ལྟ་བྱོས།

Transformer Apache 2.0 Yes

ནང་དོན

text

ཕྱིར་འདོན།

text

རིགས་གཞི།

LLM & Language Models

བརྗོད་གཞི་ཁག

generative ainlpresearch

Tucano သည် ဘရာဇီးတွင် တီထွင်ထားပြီး ပေါ်တူဂီဘာသာ စာသားများအပေါ်တွင်သာ သီးသန့် လေ့ကျင့်ထားသည့် open-weights transformer ဘာသာစကား မော်ဒယ်များ၏ မိသားစုတစ်ခုဖြစ်သည်။ မော်ဒယ်များကို ခန့်မှန်းအားဖြင့် ၂၀၀ ဘီလီယံ deduplicated ပေါ်တူဂီဘာသာ တိုကင်များပါဝင်သည့် GigaVerbo ဒေတာအစုအပေါ်တွင် ကြိုတင်လေ့ကျင့်ထားပြီး၊ ပမာဏ ၁၆၀ သန်းမှ ၂.၄ ဘီလီယံ parameters အထိ အရွယ်အစား လေးမျိုးဖြင့် ရရှိနိုင်သည်။

Fine-tuned မျိုးကွဲများတွင် ညွှန်ကြားချက်ကို လိုက်နာနိုင်သည့်ဗားရှင်းများနှင့် preference-optimized ဗားရှင်းများ ပါဝင်ပြီး၊ ဆက်စပ် multimodal ဆင်းသက်ချက်များကို ViTucano အမည်ဖြင့် ထုတ်ပြန်ခဲ့သည်။ Tucano ကို သမိုင်းကြောင်းအရ အကြီးစား ဘာသာစကား မော်ဒယ် ဖွံ့ဖြိုးတိုးတက်ရေးတွင် လုံလောက်စွာ မပါဝင်ခဲ့သည့် ပေါ်တူဂီဘာသာဖြင့် သဘာဝဘာသာစကား လုပ်ဆောင်မှုဆိုင်ရာ အလုပ်များတွင် ပါဝင်လုပ်ကိုင်နေသော သုတေသီများနှင့် developer များအတွက် ရည်ရွယ်ထားသည်။

ဤစီမံကိန်းကို Patterns ဂျာနယ်တွင် ထုတ်ဝေခဲ့သည့် ၂၀၂၅ ခုနှစ် စာတမ်းတစ်စောင်တွင် မှတ်တမ်းတင်ထားပြီး Apache 2.0 လိုင်စင်အောက်တွင် ထုတ်ပြန်ထားကာ၊ weights နှင့် code များကို GitHub တွင် အများပြည်သူသို့ ဖွင့်လှစ်ထားသည်။ မော်ဒယ် စီးရီးကို လက်ရှိတွင် မော်ကွန်းတင်ထားပြီးဖြစ်သည်။

နောက်ခံနှင့် ဖွံ့ဖြိုးတိုးတက်မှု

Tucano ကို ဘရာဇီးနိုင်ငံတွင် ပေါ်တူဂီစာသားအတွက် အထူးလေ့ကျင့်ထားသော အကြီးစား ဘာသာစကားမော်ဒယ်များ လိုအပ်ချက် ပြတ်လပ်မှုကို ဖြေရှင်းရန် ရည်ရွယ်သည့် အထူးကြိုးပမ်းမှုတစ်ရပ်အဖြစ် တီထွင်ခဲ့သည်။ ထင်ရှားသော ဘာသာစကားမော်ဒယ်များ အများစုကို အင်္ဂလိပ်ဘာသာ စာစုများအပေါ်တွင် အဓိက လေ့ကျင့်ထားကြသော်လည်း ဘရာဇီး၊ ပေါ်တူဂီနှင့် အခြားနိုင်ငံများအတွင်း လူဦးရေ သန်း ၂၅၀ ကျော်က ပြောဆိုအသုံးပြုသည့် ပေါ်တူဂီဘာသာသည် ဖောင်ဒေးရှင်း မော်ဒယ် သုတေသနတွင် သမိုင်းကြောင်းအရ အာရုံစိုက်မှု နည်းပါးခဲ့သည်။ Tucano ပရောဂျက်သည် ကြီးမားပြီး အရည်အသွေးမြင့် ပေါ်တူဂီ ဒေတာစုကို အသုံးပြုကာ အခြေခံအဆင့်မှ စတင်ပြီး transformer အခြေပြု မော်ဒယ်များကို တည်ဆောက်ခြင်းဖြင့် ထိုကွာဟချက်ကို ပိတ်ရန် ရည်ရွယ်ခဲ့သည်။

မော်ဒယ်များကို GigaVerbo ဟုခေါ်သည့် ခန့်မှန်းအားဖြင့် ၂၀၀ ဘီလီယံ deduplicated ပေါ်တူဂီ တိုကင်များပါဝင်သည့် စာစုတစ်ခုအပေါ်တွင် ကြိုတင်လေ့ကျင့်ခဲ့သည်။ ၎င်းကို အတိုင်းအတာအလိုက် ခိုင်မာသော ဘာသာစကား မော်ဒယ်လ်လုပ်ဆောင်မှုကို ထောက်ပံ့ရန် စုစည်းထားခြင်းဖြစ်သည်။ ပရောဂျက်ကို ၂၀၂၅ ခုနှစ်တွင် Patterns ဂျာနယ်၌ ထုတ်ဝေခဲ့သည့် စာတမ်း Tucano: Advancing Neural Text Generation for Portuguese တွင် မှတ်တမ်းတင်ထားပြီး Apache 2.0 လိုင်စင်အောက်တွင် GitHub တွင် အလေးချိန်များနှင့် လေ့ကျင့်ရေးကုဒ်များအားလုံးကို အများပြည်သူအတွက် ရရှိနိုင်စေထားသည်။

မော်ဒယ် မျိုးကွဲများနှင့် Fine-Tuned ဗားရှင်းများ

Tucano မိသားစုတွင် အခြေခံမော်ဒယ် အရွယ်အစား ၄ မျိုး ပါဝင်ပြီး သုတေသီများနှင့် ဆော့ဖ်ဝဲရေးသားသူများသည် မိမိတို့၏ တွက်ချက်နိုင်စွမ်း ကန့်သတ်ချက်များနှင့် လုပ်ငန်းတာဝန်လိုအပ်ချက်များအတွက် သင့်တော်သည့် မော်ဒယ်တစ်ခုကို ရွေးချယ်နိုင်သည်—

Tucano-160m – ပါရာမီတာ ၁၆၀ သန်း
Tucano-630m – ပါရာမီတာ ၆၃၀ သန်း
Tucano-1b1 – ခန့်မှန်းအားဖြင့် ပါရာမီတာ ၁.၁ ဘီလီယံ
Tucano-2b4 – ခန့်မှန်းအားဖြင့် ပါရာမီတာ ၂.၄ ဘီလီယံ

အခြေခံ ကြိုတင်လေ့ကျင့်ထားသည့် မော်ဒယ်များအပြင် ပရောဂျက်သည် fine-tuned ဆင်းသက်လာမှု အများအပြားကိုလည်း ထုတ်လုပ်ခဲ့သည်။ Tucano-SFT နှင့် Tucano-DPO တို့သည် အသိပေးကြီးကြပ်ထားသည့် fine-tuning နှင့် တိုက်ရိုက် နှစ်သက်မှု အကောင်းဆုံးပြုလုပ်ခြင်း (direct preference optimization) မျိုးကွဲများ အသီးသီးကို ကိုယ်စားပြုသည်။ အခြားတစ်ဖက်တွင် Tucano-2b4-Instruct သည် အကြီးဆုံး အခြေခံမော်ဒယ်၏ ညွှန်ကြားချက်ကို လိုက်နာနိုင်သည့် ဗားရှင်းဖြစ်သည်။ ဤ fine-tuned ဗားရှင်းများသည် အခြေခံမော်ဒယ်များ၏ အသုံးဝင်မှုကို စကားပြောဆိုင်ရာနှင့် လုပ်ငန်းတာဝန်အခြေပြု အသုံးချမှုများဆီသို့ တိုးချဲ့ပေးသည်။

ဆက်စပ် multimodal မော်ဒယ်များဖြစ်သည့် ViTucano-1b5-v1 နှင့် ViTucano-2b8-v1 တို့ကိုလည်း ViTucano အမည်အောက်တွင် ထုတ်ပြန်ခဲ့ပြီး ပေါ်တူဂီစာသားကို နားလည်ခြင်းနှင့်အတူ အမြင်ဆိုင်ရာ modality များကို ထည့်သွင်းသည့် အောက်ပိုင်းလုပ်ငန်းများကို ညွှန်ပြနေသည်။

အသုံးပြုမှုကိစ္စများနှင့် ရည်ရွယ်ထားသည့် ပရိသတ်

Tucano ကို အဓိကအားဖြင့် ပေါ်တူဂီဘာသာဖြင့် သဘာဝဘာသာစကားလုပ်ဆောင်ခြင်း (natural language processing) လုပ်ငန်းတာဝန်များအပေါ်တွင် လုပ်ကိုင်နေကြသည့် သုတေသီများနှင့် ဆော့ဖ်ဝဲရေးသားသူများအတွက် ရည်ရွယ်ထားသည်။ ဖြစ်နိုင်သည့် အသုံးချမှုကိစ္စများတွင် စာသားထုတ်လုပ်ခြင်း၊ ဘာသာစကားမော်ဒယ်လ် စံနှုန်းစစ်ဆေးခြင်း (benchmarks) များ၊ ပေါ်တူဂီဘာသာအတွက် သီးသန့်နယ်ပယ်ဆိုင်ရာ အသုံးချမှုများအတွက် fine-tuning နှင့် အရင်းအမြစ်နည်းပါးသည့် ဘာသာစကားဆက်တင်များတွင် မော်ဒယ်အပြုအမူကို လေ့လာရန် သုတေသနအခြေခံ (research baseline) အဖြစ် အသုံးပြုခြင်းတို့ ပါဝင်သည်။ မော်ဒယ်အရွယ်အစားမျိုးစုံ ရရှိနိုင်ခြင်းက ဟာ့ဒ်ဝဲကန့်သတ်ချက်ရှိသည့်အခြေအနေတွင် ပညာရေးဆိုင်ရာ စမ်းသပ်မှုများမှသည် အရင်းအမြစ်ပိုမိုလိုအပ်သည့် အသုံးချသုတေသနအထိ အသုံးချမှုအခြေအနေအမျိုးမျိုးကို ထောက်ပံ့ပေးသည်။

မော်ဒယ်များကို open weights ပါဝင်သည့် ခွင့်ပြုချက်ပေးထားသည့် Apache 2.0 လိုင်စင်အောက်တွင် ထုတ်ပြန်ထားသောကြောင့် ၎င်းတို့ကို လွတ်လပ်စွာ အသုံးပြုနိုင်၊ ပြုပြင်နိုင်၊ ပြန်လည်ဖြန့်ချိနိုင်ပြီး ပိုင်ဆိုင်မှုဆိုင်ရာ မော်ဒယ် API များသို့ ဝင်ရောက်ခွင့်မရှိသူများအပါအဝင် ကျယ်ပြန့်သည့် အသိုင်းအဝိုင်းအတွက် ရရှိနိုင်စေသည်။

လက်ရှိအခြေအနေ

Tucano မော်ဒယ်စီးရီးကို လက်ရှိတွင် မော်ဒယ်များကို သိမ်းဆည်းထားပြီး (archived) ဆိုလိုသည်မှာ တက်ကြွသော ဖွံ့ဖြိုးတိုးတက်မှုမှာ အဆုံးသတ်ပြီးဖြစ်သည်။ အလေးချိန်များ၊ ကုဒ်များနှင့် ဆက်စပ်မှတ်တမ်းများကို သုတေသနအသိုင်းအဝိုင်းအတွက် ရည်ညွှန်းအသုံးပြုနိုင်ရန် ပရောဂျက်၏ GitHub repository မှတစ်ဆင့် အများပြည်သူအတွက် ဆက်လက်ရရှိနိုင်သည်။ ၂၀၂၅ ခုနှစ်တွင် Patterns တွင် တွေ့ရှိချက်များကို ထုတ်ဝေခဲ့ခြင်းက ပရောဂျက်နှင့်ဆက်နွယ်သည့် နည်းလမ်းတကျမှု (methodology)၊ လေ့ကျင့်ရေးဒေတာများနှင့် အကဲဖြတ်ရလဒ်များအတွက် peer-reviewed မှတ်တမ်းတစ်ခုကို ပံ့ပိုးပေးပြီး ပြန်လည်ထုတ်လုပ်နိုင်မှု (reproducibility) နှင့် နောက်ထပ်လေ့လာမှုများကို အထောက်အကူပြုသည်။

སྙན་ཞུ