Tucano

ဝဘ်ဆိုက်သို့ ဝင်ရောက်ကြည့်ရှုပါ

ထရန်စဖော်မာ Apache 2.0 Yes

ထည့်သွင်းချက်

text

အထွက်

text

အမျိုးအစားများ

LLM & Language Models

အပြင်အဆင်များ

generative ainlpresearch

Tucano သည် ဘရာဇီးနိုင်ငံတွင် တီထွင်ထားပြီး ပေါ်တူဂီဘာသာ စာသားဖြင့်သာ သီးသန့် လေ့ကျင့်ထားသည့် open-weights transformer ဘာသာစကား မော်ဒယ်များ၏ မိသားစုတစ်ခုဖြစ်သည်။ မော်ဒယ်များကို ခန့်မှန်းအားဖြင့် ပေါ်တူဂီဘာသာ တိုကင် ၂၀၀ ဘီလီယံခန့် ပါဝင်သည့် deduplicated Portuguese tokens များပါဝင်သော GigaVerbo ဒေတာအစုံပေါ်တွင် ကြိုတင်လေ့ကျင့်ထားပြီး၊ အရွယ်အစား လေးမျိုးဖြင့် ၁၆၀ သန်းမှ ၂.၄ ဘီလီယံ ပါရာမီတာအထိ ရရှိနိုင်သည်။

Fine-tuned မျိုးကွဲများတွင် ညွှန်ကြားချက်ကို လိုက်နာတတ်သည့်ဗားရှင်းများနှင့် preference-optimized ဗားရှင်းများ ပါဝင်ပြီး၊ ဆက်စပ် multimodal ဆင်းသက်လာမှုများကို ViTucano အမည်ဖြင့် ထုတ်ပြန်ခဲ့သည်။ Tucano ကို သမိုင်းကြောင်းအရ အကြီးစား ဘာသာစကားမော်ဒယ် ဖွံ့ဖြိုးတိုးတက်ရေးတွင် လုံလောက်စွာ ကိုယ်စားမပြုခံရလေ့ရှိသည့် ပေါ်တူဂီဘာသာဖြင့် သဘာဝဘာသာစကား လုပ်ဆောင်ခြင်းဆိုင်ရာ အလုပ်များတွင် ပါဝင်လုပ်ကိုင်နေသည့် သုတေသီများနှင့် developer များအတွက် ရည်ရွယ်ထားသည်။

ဤစီမံကိန်းကို Patterns ဂျာနယ်တွင် ထုတ်ဝေခဲ့သည့် ၂၀၂၅ ခုနှစ် စာတမ်းတစ်ခုတွင် မှတ်တမ်းတင်ထားပြီး Apache 2.0 လိုင်စင်အောက်တွင် ထုတ်ပြန်ထားကာ၊ weights နှင့် code များကို GitHub တွင် အများပြည်သူအတွက် ရရှိနိုင်သည်။ မော်ဒယ်စီးရီးကို လက်ရှိတွင် archive လုပ်ထားပြီးဖြစ်သည်။

နောက်ခံနှင့် ဖွံ့ဖြိုးတိုးတက်မှု

Tucano ကို ဘရာဇီးနိုင်ငံတွင် ပေါ်တူဂီစာသားအတွက် အထူးလေ့ကျင့်ထားသော အကြီးစား ဘာသာစကားမော်ဒယ်များ လိုအပ်ချက် ပြတ်လပ်မှုကို ဖြေရှင်းရန် ရည်ရွယ်ထားသည့် သီးသန့်ကြိုးပမ်းမှုအဖြစ် တီထွင်ခဲ့သည်။ ထင်ရှားသော ဘာသာစကားမော်ဒယ်များ အများစုကို အင်္ဂလိပ်ဘာသာ စာစုများအပေါ် အဓိကလေ့ကျင့်ထားကြသော်လည်း၊ ဘရာဇီး၊ ပေါ်တူဂီနှင့် အခြားနိုင်ငံများတွင် လူဦးရေ သန်း ၂၅၀ ကျော်က ပြောဆိုသည့် ပေါ်တူဂီဘာသာသည် ဖောင်ဒေးရှင်းမော်ဒယ် သုတေသနတွင် သမိုင်းကြောင်းအရ အာရုံစိုက်မှု နည်းပါးခဲ့သည်။ Tucano စီမံကိန်းသည် ကြီးမားပြီး အရည်အသွေးမြင့် ပေါ်တူဂီဒေတာအစုံကို အသုံးပြုကာ အောက်ခြေမှစ၍ transformer အခြေပြု မော်ဒယ်များကို တည်ဆောက်ခြင်းဖြင့် ထိုကွာဟချက်ကို ပိတ်ရန် ရည်ရွယ်ခဲ့သည်။

မော်ဒယ်များကို GigaVerbo ပေါ်တွင် ကြိုတင်လေ့ကျင့်ထားသည်။ ယင်းမှာ အကြမ်းဖျက် (deduplicated) ပေါ်တူဂီ တိုကင် ခန့်မှန်း ၂၀၀ ဘီလီယံပါဝင်သည့် စာစုတစ်ခုဖြစ်ပြီး အတိုင်းအတာအကြီးတွင် ခိုင်မာသော ဘာသာစကားမော်ဒယ်လ်လုပ်ဆောင်မှုကို ထောက်ပံ့ရန် စုစည်းထားသည်။ စီမံကိန်းကို စာတမ်း Tucano: Advancing Neural Text Generation for Portuguese တွင် မှတ်တမ်းတင်ထားပြီး ၂၀၂၅ ခုနှစ်တွင် Patterns ဂျာနယ်တွင် ထုတ်ဝေခဲ့ကာ Apache 2.0 လိုင်စင်အောက်တွင် GitHub တွင် အလေးချိန်များနှင့် လေ့ကျင့်ရေးကုဒ်အားလုံးကို အများပြည်သူအတွက် ရရှိနိုင်စေထားသည်။

မော်ဒယ်မျိုးကွဲများနှင့် Fine-Tuned ဗားရှင်းများ

Tucano မိသားစုတွင် အခြေခံမော်ဒယ် အရွယ်အစား ၄ မျိုး ပါဝင်ပြီး သုတေသီများနှင့် ဖွံ့ဖြိုးသူများသည် ၎င်းတို့၏ တွက်ချက်နိုင်စွမ်း ကန့်သတ်ချက်များနှင့် လုပ်ငန်းလိုအပ်ချက်များအတွက် သင့်တော်သော မော်ဒယ်ကို ရွေးချယ်နိုင်သည်—

Tucano-160m – ကန့်သတ်ချက် ၁၆၀ သန်း
Tucano-630m – ကန့်သတ်ချက် ၆၃၀ သန်း
Tucano-1b1 – ခန့်မှန်း ကန့်သတ်ချက် ၁.၁ ဘီလီယံ
Tucano-2b4 – ခန့်မှန်း ကန့်သတ်ချက် ၂.၄ ဘီလီယံ

အခြေခံ ကြိုတင်လေ့ကျင့်ထားသော မော်ဒယ်များအပြင် စီမံကိန်းသည် fine-tuned ဆင်းသက်လာမှု အများအပြားကိုလည်း ထုတ်လုပ်ခဲ့သည်။ Tucano-SFT နှင့် Tucano-DPO တို့သည် အသိပညာကြီးကြပ်ထားသော fine-tuning နှင့် တိုက်ရိုက် နှစ်သက်မှု အကောင်းဆုံးပြုလုပ်ခြင်း (direct preference optimization) မျိုးကွဲများ အသီးသီးကို ကိုယ်စားပြုသည်။ Tucano-2b4-Instruct သည် အကြီးဆုံး အခြေခံမော်ဒယ်၏ ညွှန်ကြားချက်ကို လိုက်နာနိုင်သည့် ဗားရှင်းဖြစ်သည်။ ဤ fine-tuned ဗားရှင်းများသည် အခြေခံမော်ဒယ်များ၏ အသုံးဝင်မှုကို စကားပြောဆိုင်ရာနှင့် လုပ်ငန်းအခြေပြု အသုံးချမှုများဆီသို့ တိုးချဲ့ပေးသည်။

ဆက်စပ် multimodal မော်ဒယ်များဖြစ်သည့် ViTucano-1b5-v1 နှင့် ViTucano-2b8-v1 ကိုလည်း ViTucano အမည်အောက်တွင် ထုတ်ပြန်ခဲ့ပြီး၊ ပေါ်တူဂီစာသားကို နားလည်ခြင်းအပြင် မြင်သာသော modality များကို ထည့်သွင်းသည့် နောက်ဆက်တွဲလုပ်ငန်းများကို ညွှန်ပြနေသည်။

အသုံးပြုမှုကိစ္စများနှင့် ရည်ရွယ်ထားသော ပရိသတ်

Tucano ကို အဓိကအားဖြင့် ပေါ်တူဂီဘာသာဖြင့် သဘာဝဘာသာစကားလုပ်ဆောင်မှု (natural language processing) လုပ်ငန်းများအပေါ် လုပ်ကိုင်နေသော သုတေသီများနှင့် ဖွံ့ဖြိုးသူများအတွက် ရည်ရွယ်ထားသည်။ ဖြစ်နိုင်သည့် အသုံးပြုမှုကိစ္စများတွင် စာသားထုတ်လုပ်ခြင်း၊ ဘာသာစကားမော်ဒယ်လ် စံနှုန်းစစ်ဆေးမှုများ (benchmarks)၊ ပေါ်တူဂီဘာသာဆိုင်ရာ သီးသန့်နယ်ပယ်အသုံးချမှုများအတွက် fine-tuning နှင့် အရင်းအမြစ်နည်းပါးသည့် ဘာသာစက်ဝန်းများတွင် မော်ဒယ်အပြုအမူကို လေ့လာရန် သုတေသနအခြေခံ (research baseline) အဖြစ် အသုံးပြုခြင်းတို့ ပါဝင်သည်။ မော်ဒယ်အရွယ်အစား မျိုးစုံရရှိနိုင်မှုကြောင့် ဟာ့ဒ်ဝဲကန့်သတ်ထားသည့်အခြေအနေတွင် ပညာရေးဆိုင်ရာ စမ်းသပ်မှုများမှသည် အရင်းအမြစ်ပိုမိုလိုအပ်သည့် အသုံးချသုတေသနအထိ အသုံးချမှုအခြေအနေအမျိုးမျိုးကို ထောက်ပံ့ပေးနိုင်သည်။

မော်ဒယ်များကို Apache 2.0 လိုင်စင်အောက်တွင် ခွင့်ပြုချက်ပေးထားပြီး open weights များဖြင့် ထုတ်ပြန်ထားသောကြောင့် ၎င်းတို့ကို လွတ်လပ်စွာ အသုံးပြု၊ ပြင်ဆင်၊ ပြန်လည်ဖြန့်ဝေနိုင်ပြီး၊ ပိုင်ဆိုင်မှုရှိသည့် မော်ဒယ် API များသို့ ဝင်ရောက်ခွင့်မရှိသူများအပါအဝင် ကျယ်ပြန့်သော အသိုင်းအဝိုင်းတစ်ခုလုံးအတွက် ရရှိနိုင်စေသည်။

လက်ရှိအခြေအနေ

Tucano မော်ဒယ်စီးရီးကို လက်ရှိတွင် archive လုပ်ထားပြီး ဆိုလိုသည်မှာ တက်ကြွသော ဖွံ့ဖြိုးတိုးတက်မှုမှာ ပြီးဆုံးသွားပြီဖြစ်သည်။ အလေးချိန်များ၊ ကုဒ်များနှင့် ဆက်နွယ်သည့် မှတ်တမ်းစာရွက်စာတမ်းများကို သုတေသနအသိုင်းအဝိုင်းအတွက် ရည်ညွှန်းအသုံးပြုမှုနှင့် ဆက်လက်အသုံးပြုမှုအတွက် စီမံကိန်း၏ GitHub repository မှတစ်ဆင့် အများပြည်သူအတွက် ဆက်လက်ရရှိနိုင်သည်။ ၂၀၂၅ ခုနှစ်တွင် Patterns တွင် တွေ့ရှိချက်များကို ထုတ်ဝေခြင်းသည် စီမံကိန်းနှင့်ဆက်နွယ်သည့် နည်းလမ်း (methodology)၊ လေ့ကျင့်ရေးဒေတာ (training data) နှင့် အကဲဖြတ်ရလဒ်များ (evaluation results) ကို peer-reviewed မှတ်တမ်းအဖြစ် ပေးစွမ်းပြီး၊ ပြန်လည်ထုတ်လုပ်နိုင်မှု (reproducibility) နှင့် နောက်ထပ်လေ့လာမှုများကို ထောက်ပံ့ပေးသည်။

အစီရင်ခံစာ