Transformer 1B-7B Apache 2.0 Yes
English

እታ እትኣትዎ ጽሑፍ

text

ኣውጽእ

text

መደብታት

ቴማታት

generative ainlpresearch

Pythia 1B ብEleutherAI ዝተማዕበለን ብመጋቢት 2023 ዝተለቐቐን 1 ቢልዮን ፓራሜተር ዘለዎ autoregressive ናይ ቋንቋ ሞዴል እዩ። ኣብ GPT-NeoX architecture ዝተሃነጸ እዚ ሞዴል 16 transformer layers፣ 2048 ዝኾነ ናይ ሞዴል መጠን፣ ከምኡውን 8 attention heads ኣለዎ፣ እንተኾነ ድማ ኣብ The Pile ዝተባህለ ዓቢ መጠን ዘለዎ ክፉት ምንጪ ናይ ጽሑፍ ዳታሴት ተለሚዱ።

እዚ ሞዴል ክፍሊ ናይቲ ሰፊሕ Pythia suite እዩ፣ እዚ ድማ ብፍሉይ ንinterpretabilityን reproducibility researchን ንምድጋፍ ዝተነደፈ እዩ፣ 154 መንጎኛ ናይ ልምምድ ምልክታት ብምቕራብ ኣብ ግዜ ልምምድ ናይ ቋንቋ ሞዴላት ከመይ ከም ዝምዕብሉ ዝርዝር ትንተና ንኽግበር የኽእል። Pythia 1B ኣብ Apache 2.0 license ብኽፉት መንገዲ ይርከብ፣ ምሉእ weights ድማ ኣብ Hugging Face ተለቒቑ ስለዘሎ፣ ንኣካዳሚያዊን ምርምርን ኣጠቓቕማ ተበጻሒ ይገብሮ።

ዝተዓለመ ተጠቃሚኡ ሓፈሻዊ ኣጠቓቕማ ንምውፋር ዘይኮነስ፣ ባህሪ ናይ ቋንቋ ሞዴላት፣ scaling laws፣ ከምኡውን training dynamics ዝመርምሩ ተመራማሪት እዮም።

ድሕረ ባይታን ምዕባለን

Pythia 1B ኣካል ናይ ስብስብ ሞዴላት Pythia እዩ፣ እዚ ድማ ብ EleutherAI ዝተማዕበለ ስብስብ ዓበይቲ ሞዴላት ቋንቋ እዩ፣ EleutherAI ከኣ ኣብ ኣሜሪካ ዝመሰረተ ናይ ዘይረብሓ ትካል ምርምር AI እዩ። እቲ ሞዴል ብ 10 መጋቢት 2023 ተለቒቑ፣ ከምኡውን ንሓፈሻዊ ኣጠቓቕማ ኣይኮነን ንዝተወሰነ ትኹረት ምርምር ተፈጢሩ። EleutherAI ነቲ ስብስብ Pythia ንምግባር ዝዓለመ ምኽንያት፣ ሞዴላት ቋንቋ ኣብ ሂደት ስልጠና ከመይ ከም ዝምዕብሉ ክእለታትን ባህርያትን ንምጥናዕ ብግልጺ ዝርከቡ መሳርሒታት ዘሎ ክፍተት ንምምላእ እዩ። እቲ 1B ልዩነት ኣብቲ ስብስብ ማእከላይ ዓቐን ይውክል፣ እዚ ድማ ኣብ መንጎ ናይ ሕሳብ ተበጻሕነትን ክእለት ሞዴልን ሚዛን ዝህብ ኮይኑ ንዝርዝር ተመክሮኣዊ ጥናት ዝምችእ እዩ።

እቲ ሞዴል ኣብ The Pile ተሰልጢኑ፣ እዚ ድማ ብ EleutherAI ዝተዳለወ 825 GB ክፉት ምንጪ ዳታሴት እዩ፣ ካብ መጻሕፍቲ፣ ኣካዳሚያዊ ጽሑፋት፣ ማእከላት ኮድ፣ ከምኡውን ዌብ ትሕዝቶ ዝኣመሰሉ ምንጭታት ዝመጸ ብዙሕ ዓይነት እንግሊዝኛ ጽሑፍ ዝሓዘ እዩ። ስልጠና ብ batch size 2 ሚልዮን tokens እና learning rate 3.0e-4 ተጠቒሙ ተኻይዱ፣ እቲ GPT-NeoX library ድማ ከም መሰረታዊ ፍሬምዎርክ ስልጠና ኣገልጊሉ።

ኣርኪቴክቸርን ቴክኒካዊ ዝርዝራትን

Pythia 1B ኣብ GPT-NeoX transformer architecture ዝተሃነጸ እዩ፣ ነቲ gpt_neox architectural variant ድማ ይተግብር። መሰረታዊ መዋቕራዊ ፓራሜተራቱ እዚኣቶም ይካተቱ፦

  • 16 ናይ transformer ደረባት
  • ናይ ሞዴል መጠን 2048
  • 8 ናይ attention heads
  • ብግምት 1 ቢልዮን ጠቕላላ ፓራሜተራት፣ ካብኡ ድማ ብግምት 805 ሚልዮን non-embedding ፓራሜተራት

እቲ ሞዴል ጽሑፍ ከም እታወትን ከም ውጽኢትን ይቕበል፣ ከም ልሙድ autoregressive ሞዴል ምፍራይ ጽሑፍ ድማ ይሰርሕ። ክብደታት ብግልጺ ኣብ Hugging Face ትሕቲ መለለዪ EleutherAI/pythia-1b ተለቒቖም ኣለዉ፣ ከምኡውን ትሕቲ ፍቓድ Apache 2.0 ይዝርግሑ፣ እዚ ድማ ኣብ ምርምርን ካብኡ ዝተፈልየ ስራሕን ብዙሕ ኣጠቓቕማ ብውሑድ ገደብ ይፈቅድ።

ናይ ምርምር ኣበርክቶታትን መንጎኣዊ ምልክታት ስልጠናን

ሓደ ካብ ፍሉይ ባህርያት Pythia 1B ናይ 154 መንጎኣዊ ምልክታት ስልጠና ምህላዉ እዩ። እዞም ምልክታት እዚኣቶም ኣብ ምሉእ ሂደት ስልጠና ብስሩዕ እዋናት ሁኔታ እቲ ሞዴል ይሕዙ፣ እዚ ድማ ንተመራመርቲ ውሽጣዊ ውክልናታት፣ ክእለታትን ባህርያትን ከመይ ከም ዝብቆሉን ብግዜ ከመይ ከም ዝልወጡን ንምክትታል የኽእሎም። እዚ ደረጃ ግልጽነት ኣብ ብግልጺ ዝተለቐቑ ሞዴላት ቋንቋ ልሙድ ኣይኮነን፣ ከምኡውን ኣብ ፍልስፍና ንድፊ እቲ ስብስብ ማእከላይ ቦታ ኣለዎ።

እዚ ባህሪ እዚ Pythia 1B ብፍላይ ኣብ ናይ ስልጠና ዳይናሚክስ፣ mechanistic interpretability፣ ከምኡውን ጥናት scaling laws ክቡር ይገብሮ። ተመራመርቲ ነዞም ምልክታት ተጠቒሞም ከም እዚ ዝኣመሰሉ ሕቶታት ክምርምሩ ይኽእሉ፦ ዝተወሰነ ቋንቋዊ ወይ ሓበሬታዊ ፍልጠት መዓስ ከም ዝርከብ፣ ምዝካር ከመይ ከም ዝምዕብል፣ ወይ ኣብ ስልጠና ናይ attention ኣብነታት ከመይ ከም ዝቕየሩ። እቲ ኣብ ኩሎም ሞዴላት ናይ ስብስብ Pythia ዘሎ ተመሳሳሊ ኣቀማምጣ ስልጠና ድማ ኣብ መንጎ ዝተፈላለዩ መጠናት ፓራሜተር ቁጽጽር ዘለዎ ምንጽጻር የኽእል።

ዝተዓለመ ኣጠቓቕማን ተበጻሕነትን

Pythia 1B ብንጹር ንዕላማታት ምርምር ዝተዓለመ እዩ። ንድፉ ካብ ናይ ዝተወሰነ ተግባር ብቕዓት ንላዕሊ ተደጋጋሚነትን ትርጓሜ ክእለትን ይቐድም፣ ከምኡውን ን production ወይ ንምዝርጋሕ ናይ መወዳእታ ተጠቃሚ ኣይተመሓየሸን ወይ ኣይምከርን። እቲ ክፉት ምልቃቕ ናይ ክብደታት ሞዴል፣ ዳታ ስልጠና፣ ከምኡውን መንጎኣዊ ምልክታት ነቲ ሰፊሕ ሳይንሳዊ ማሕበረሰብ ነቲ ስራሕ ንምምርማር፣ ንምድጋም፣ ከምኡውን ኣብ ልዕሊኡ ንምህናጽ ዓቕሚ ይድግፍ።

ምኽንያቱ እቲ ሞዴል ብ 1 ቢልዮን ፓራሜተራት ኣንጻር ንእሽቶ ስለ ዝኾነ፣ ብዘይ ዓበይቲ መሰረተ ልምዓት GPU ንዝርከቡ ተመራመርቲ እውን ብሕሳብ ተበጻሒ ይቕጽል፣ እዚ ድማ ኣብ ውሽጣዊ ኣሰራርሓ ሞዴላት ቋንቋ ፈተናታት ንምክያድ ዘሎ ዕንቅፋት የንክስ። ኣብ Hugging Face ምህላዉ ድማ ብ Transformers library ከምኡውን ተዛመድቲ መሳርሒታት ተጠቒምካ ምስ ልሙዳት ናይ ምርምር ውህደታት ስራሕ ቀሊል ምውህሃድ የረጋግጽ።

ሪፖርት