Transformer 7B-13B CC-BY-SA 4.0 4K Yes
English

ནང་དོན

text

ཕྱིར་འདོན།

text

རིགས་གཞི།

བརྗོད་གཞི་ཁག

generative ainlp

StableLM Base Alpha 7B v2 သည် Stability AI မှ တီထွင်ထားသည့်၊ ၂၀၂၃ ခုနှစ် သြဂုတ်လတွင် ထုတ်ပြန်ခဲ့သော open-weights transformer အခြေပြု ဘာသာစကား မော်ဒယ်တစ်ခု ဖြစ်သည်။ ၎င်းတွင် ကန့်သတ်ချက် ၇ ဘီလီယံ ပါဝင်ပြီး စာသားထုတ်လုပ်ခြင်းဆိုင်ရာ အလုပ်များအတွက် ရည်ရွယ်ထားကာ context length ၄,၀၉၆ token ကို ထောက်ပံ့ပေးသည်။

မော်ဒယ်ကို Falcon RefinedWeb၊ RedPajama-Data-1T၊ StarCoderData နှင့် အခြားများစွာပါဝင်သည့် ကြီးမားသော ဒေတာအစုများမှ ရယူထားသော ခန့်မှန်း ၁.၁ ထရီလီယံ token များဖြင့် လေ့ကျင့်ထားပြီး SwiGLU activations နှင့် Rotary Position Embeddings (RoPE) တို့ပါဝင်သည့် အခြေခံဗိသုကာလက္ခဏာများ ပါဝင်သည်။

CC BY-SA 4.0 လိုင်စင်အောက်တွင် ထုတ်ပြန်ထားပြီး၊ နောက်ထပ် fine-tuning သို့မဟုတ် စမ်းသပ်မှုများအတွက် ခွင့်ပြုချက်များ လွယ်ကူသော base model ကို လိုလားသည့် သုတေသီများနှင့် developer များအတွက် ရည်ရွယ်ထားကာ transformers လိုင်ဘရယ်ဖြင့် Hugging Face မှတစ်ဆင့် ရယူအသုံးပြုနိုင်သည်။

နောက်ခံနှင့် ဖွံ့ဖြိုးတိုးတက်မှု

StableLM Base Alpha 7B v2 သည် Stability AI ၏ StableLM Base Alpha စီးရီး၏ ဒုတိယအကြိမ် ထပ်ဆင့်ခြင်းဖြစ်ပြီး ၂၀၂၃ ခုနှစ် သြဂုတ်လ ၄ ရက်နေ့တွင် ထုတ်ပြန်ခဲ့ကာ ၂၀၂၃ ခုနှစ် စက်တင်ဘာလ ၁၁ ရက်နေ့တွင် နောက်ဆက်တွဲ အပ်ဒိတ်တစ်ခု ထပ်မံပြုလုပ်ခဲ့သည်။ အမေရိကန်အခြေစိုက် အတုဉာဏ်ကုမ္ပဏီတစ်ခုဖြစ်သည့် Stability AI သည် ပွင့်လင်းသော generative မော်ဒယ်များအပေါ် လုပ်ဆောင်မှုများကြောင့် လူသိများပြီး၊ သုတေသနနှင့် developer အသိုင်းအဝိုင်းအတွက် လွယ်ကူစွာအသုံးပြုနိုင်ကာ ပွင့်လင်းစွာ လိုင်စင်ချထားသော ဘာသာစကားမော်ဒယ်များကို ပံ့ပိုးပေးရန် ၎င်း၏ ပိုမိုကျယ်ပြန့်သော ကြိုးပမ်းမှု၏ တစ်စိတ်တစ်ပိုင်းအဖြစ် ဤမော်ဒယ်ကို တီထွင်ခဲ့သည်။

ဤမော်ဒယ်ကို 7 ဘီလီယံ ပါရာမီတာပါသည့် transformer decoder အခြေခံဗိသုကာဖြင့် တည်ဆောက်ထားပြီး၊ ပိုကြီးမားသော မော်ဒယ်များက တောင်းဆိုသည့် တွက်ချက်မှုအရင်းအမြစ်များ မလိုအပ်ဘဲ စမ်းသပ်ခြင်းနှင့် fine-tuning ပြုလုပ်ရန် သင့်တော်သည့် အလယ်အရွယ်အစားအမျိုးအစားထဲတွင် ပါဝင်သည်။ 4,096 token အထိ context window ကို ထောက်ပံ့ပေးပြီး အင်္ဂလိပ်ဘာသာ စာသားထုတ်လုပ်ခြင်းဆိုင်ရာ အလုပ်များအတွက်သာ သီးသန့် ဒီဇိုင်းပြုလုပ်ထားသည်။

ဗိသုကာနှင့် လေ့ကျင့်ရေး

StableLM Base Alpha 7B v2 သည် ခေတ်မီ ကြီးမားသော ဘာသာစကားမော်ဒယ်များတွင် တွေ့ရများသည့် ဗိသုကာဒီဇိုင်းရွေးချယ်မှုများ အများအပြားကို အသုံးပြုထားသည်။ ၎င်း၏ အဓိက ဖွဲ့စည်းတည်ဆောက်ပုံဆိုင်ရာ သတ်မှတ်ချက်များမှာ—

  • hidden size 4,096 ပါသည့် transformer layer 32 ခု
  • attention head 32 ခု
  • သင်တန်းထိရောက်မှုကို နှိုင်းယှဉ်နိုင်သည့် မော်ဒယ်များတွင် တိုးတက်စေကြောင်း ပြသထားသည့် SwiGLU activation function
  • positional information ကို ကုဒ်ဖော်ရန် Rotary Position Embeddings (RoPE)

ဤမော်ဒယ်ကို အများပြည်သူအတွက် ရရှိနိုင်သည့် ကြီးမားသော dataset များ ပေါင်းစပ်မှုမှ ရယူထားသော ခန့်မှန်း token 1.1 ထရီလီယံခန့်ပေါ်တွင် လေ့ကျင့်ခဲ့သည်။ ၎င်းတို့တွင် Falcon RefinedWeb၊ RedPajama-Data-1T၊ CarperAI ၏ PILEv2၊ BigCode ၏ StarCoderData နှင့် MiniPile တို့ ပါဝင်သည်။ StarCoderData ကို ထည့်သွင်းထားခြင်းကြောင့် မော်ဒယ်သည် အထွေထွေ စာသားအပြင် ပရိုဂရမ်ရေးဆိုင်ရာ အကြောင်းအရာများနှင့်ပါ ထိတွေ့မှုရှိပြီး၊ သဘာဝဘာသာစကားဆိုင်ရာ အလုပ်များသက်သက်သာမက အခြားအသုံးချနိုင်မှုများကိုလည်း ကျယ်ပြန့်စေသည်။

လိုင်စင်ချထားမှုနှင့် လက်လှမ်းမီနိုင်မှု

StableLM Base Alpha 7B v2 ကို Creative Commons Attribution-ShareAlike 4.0 (CC BY-SA 4.0) လိုင်စင်အောက်တွင် ထုတ်ပြန်ထားသည်။ ၎င်းသည် အရွယ်အစားအလားတူ မော်ဒယ်တစ်ခုအတွက် နှိုင်းယှဉ်လျော့နည်းတင်းကျပ်သည့် လိုင်စင်တစ်ခုဖြစ်ပြီး၊ အသုံးပြုသူများသည် attribution ပေးထားသရွေ့ မော်ဒယ်ကို အသုံးပြု၊ ပြင်ဆင်၊ ပြန်လည်ဖြန့်ဝေနိုင်သည်။ ဆက်နွယ်ဖန်တီးမှုများကိုလည်း အလားတူ လိုင်စင်အောက်တွင် မျှဝေရမည်ဖြစ်သည်။ ဤလိုင်စင်ချထားမှုနည်းလမ်းသည် အသုံးပြုမှုအခြေအနေများကို ပိုမိုတင်းကျပ်စေသည့် အချို့သော ခေတ်တူ မော်ဒယ်များနှင့် ကွဲပြားစေသည်။

မော်ဒယ်၏ weights များကို Hugging Face တွင် stabilityai/stablelm-base-alpha-7b-v2 ဟူသော identifier အောက်တွင် အများပြည်သူအတွက် ရရှိနိုင်ပြီး Hugging Face transformers စာကြည့်တိုက်နှင့် ကိုက်ညီကာ၊ ထို ecosystem အတွင်းတွင် လုပ်ကိုင်နေပြီးသား လက်တွေ့အသုံးချသူများအတွက် လက်လှမ်းမီရေး အတားအဆီးကို လျော့နည်းစေသည်။ ရရှိနိုင်သည့် အချက်အလက်များအရ မော်ဒယ်သည် ထိုပလက်ဖောင်းပေါ်တွင် ဒေါင်းလုဒ်ခန့်မှန်း 79,000 ခန့် စုဆောင်းထားပြီးဖြစ်သည်။

ရည်ရွယ်အသုံးပြုမှုနှင့် ထည့်သွင်းစဉ်းစားချက်များ

အခြေခံမော်ဒယ်တစ်ခုအနေဖြင့် StableLM Base Alpha 7B v2 သည် အပြင်ကနေ တန်းညွှန်ညွှန် (instruction) လေ့ကျင့်ထားခြင်း သို့မဟုတ် စကားပြောအသုံးပြုမှုအတွက် align လုပ်ထားခြင်း မရှိပါ။ ၎င်းကို အဓိကအားဖြင့် နောက်ထပ် fine-tuning အတွက် အခြေခံအဖြစ် ရည်ရွယ်ထားပြီး၊ သုတေသနလုပ်သူများနှင့် developer များသည် စာသားဖြည့်စွက်ခြင်း၊ အကျဉ်းချုပ်ရေး pipeline များ၊ သို့မဟုတ် domain အလိုက် အသုံးချမှုများကဲ့သို့သော သီးခြား downstream အလုပ်များနှင့် ကိုက်ညီအောင် ပြုပြင်နိုင်စေသည်။ Stability AI သည် ပိုမိုချက်ချင်း အပြန်အလှန်ပြောဆိုနိုင်သည့် မော်ဒယ်ကို လိုချင်သူများအတွက် instruction-tuned variant များကို သီးခြားစီ ထုတ်ပြန်ထားသည်။

မော်ဒယ်၏ open-weights သဘောသဘာဝနှင့် လိုင်စင်ချထားမှု လွတ်လပ်မှုများကြောင့်၊ ပွင့်လင်းမြင်သာမှုနှင့် weight လက်လှမ်းမီမှုကို ဦးစားပေးသည့် ပညာရေးဆိုင်ရာ သုတေသန၊ prototyping နှင့် ကူးသန်းရောင်းဝယ်ရေး fine-tuning ပရောဂျက်များအတွက် လက်တွေ့ကျသော ရွေးချယ်မှုတစ်ခု ဖြစ်နိုင်သည်။ သို့သော်လည်း၊ ဝဘ်အရင်းအမြစ်များမှ ကြီးမားသော စာစုများပေါ်တွင် လေ့ကျင့်ထားသည့် အခြေခံ ဘာသာစကားမော်ဒယ်အားလုံးကဲ့သို့ပင်၊ ထွက်ရှိလာသော ရလဒ်များသည် အခြေခံလေ့ကျင့်ရေးဒေတာတွင် ပါဝင်သည့် ဘက်လိုက်မှုများကို ထင်ဟပ်နိုင်ပြီး၊ မည်သည့် production အခြေအနေတွင်မဆို မတင်မီ သင့်လျော်သော အကဲဖြတ်မှုများနှင့် ကာကွယ်ရေး အစီအမံများကို အကြံပြုထားသည်။

སྙན་ཞུ