ट्रान्सफर्मर 1B-7B Apache 2.0 Yes
English

इनपुट

text

आउटपुट

text

वर्गहरू

थिमहरू

generative ainlpresearch

Pythia 1B भनेको EleutherAI ले विकास गरेको र मार्च 2023 मा सार्वजनिक गरिएको १-अर्ब प्यारामिटरको autoregressive भाषा मोडल हो। GPT-NeoX आर्किटेक्चरमा आधारित, यसमा १६ वटा transformer लेयर, २०४८ को मोडल डाइमेन्सन र ८ वटा attention हेड छन्। यसलाई The Pile नामक ठूलो परिमाणको खुला-स्रोत पाठ डेटासेटमा प्रशिक्षित गरिएको थियो।

यो मोडल व्यापक Pythia सुइटको एक हिस्सा हो, जुन विशेष रूपमा interpretability र reproducibility अनुसन्धानलाई समर्थन गर्नका लागि डिजाइन गरिएको छ। यसले १५४ वटा मध्यवर्ती प्रशिक्षण चेकपोइन्ट उपलब्ध गराएर, प्रशिक्षणका क्रममा भाषा मोडलहरू कसरी विकसित हुन्छन् भन्ने विस्तृत विश्लेषण गर्न सक्षम बनाउँछ। Pythia 1B लाई Apache 2.0 लाइसेन्स अन्तर्गत खुला रूपमा उपलब्ध गराइएको छ र पूर्ण वेटहरू Hugging Face मा जारी गरिएको छ, जसले शैक्षिक र अनुसन्धान प्रयोजनका लागि पहुँचयोग्य बनाउँछ।

यसको लक्षित दर्शक भनेको सामान्य प्रयोजनका लागि प्रयोग गर्ने प्रयोगकर्ताभन्दा भाषा मोडलको व्यवहार, scaling laws, र प्रशिक्षण गतिशीलता अध्ययन गर्ने अनुसन्धानकर्ताहरू हुन्।

पृष्ठभूमि र विकास

Pythia 1B, EleutherAI द्वारा विकसित ठूलो भाषा मोडेलहरूको एक समूह Pythia मोडेल सुइटको हिस्सा हो। EleutherAI संयुक्त राज्य अमेरिकामा आधारित एक गैर-नाफामूलक AI अनुसन्धान संस्था हो। यो मोडेल मार्च 10, 2023 मा सार्वजनिक गरिएको थियो, र सामान्य-उद्देश्यीय प्रयोगका लागि होइन, विशेष अनुसन्धान केन्द्रितताका साथ निर्माण गरिएको थियो। EleutherAI ले भाषा मोडेलहरूले प्रशिक्षण प्रक्रियाको क्रममा कसरी क्षमता र व्यवहार विकास गर्छन् भन्ने अध्ययन गर्न सार्वजनिक रूपमा उपलब्ध उपकरणहरूको अभावलाई सम्बोधन गर्न Pythia सुइट डिजाइन गरेको हो। 1B भेरियन्ट सुइटभित्रको मध्यस्तरीय आकार हो, जसले कम्प्युटेसनल पहुँचयोग्यता र विस्तृत अनुभवजन्य अध्ययनका लागि उपयुक्त मोडेल क्षमताबीच सन्तुलन प्रदान गर्छ।

यो मोडेल The Pile मा प्रशिक्षित गरिएको थियो, जुन EleutherAI द्वारा क्युरेट गरिएको 825 GB को खुला-स्रोत डेटासेट हो र यसमा पुस्तकहरू, शैक्षिक पत्रहरू, कोड रिपोजिटरीहरू, तथा वेब सामग्रीलगायतका स्रोतहरूबाट विविध अंग्रेजी भाषाका पाठहरू समावेश छन्। प्रशिक्षणमा 2 मिलियन टोकनको ब्याच साइज र 3.0e-4 को लर्निङ रेट प्रयोग गरिएको थियो, र GPT-NeoX लाइब्रेरीले आधारभूत प्रशिक्षण फ्रेमवर्कको रूपमा काम गरेको थियो।

आर्किटेक्चर र प्राविधिक विशिष्टताहरू

Pythia 1B, GPT-NeoX ट्रान्सफर्मर आर्किटेक्चरमा आधारित छ, जसले gpt_neox आर्किटेक्चरल भेरियन्ट लागू गर्छ। यसको मुख्य संरचनात्मक परिमितिहरूमा समावेश छन्:

  • 16 ट्रान्सफर्मर तहहरू
  • 2048 को मोडेल आयाम
  • 8 वटा attention heads
  • लगभग 1 बिलियन कुल परिमितिहरू, जसमा करिब 805 मिलियन non-embedding परिमितिहरू छन्

यो मोडेल इनपुट र आउटपुट दुवैका लागि पाठ स्वीकार्छ, र एक मानक autoregressive पाठ उत्पादन मोडेलका रूपमा काम गर्छ। वेटहरू Hugging Face मा EleutherAI/pythia-1b पहिचानकर्ताअन्तर्गत खुला रूपमा जारी गरिएका छन् र Apache 2.0 लाइसेन्सअन्तर्गत वितरण गरिएका छन्, जसले न्यूनतम प्रतिबन्धसहित अनुसन्धान र व्युत्पन्न कार्यमा व्यापक प्रयोग गर्न अनुमति दिन्छ।

अनुसन्धान योगदान र मध्यवर्ती चेकपोइन्टहरू

Pythia 1B को विशिष्ट विशेषतामध्ये एक भनेको 154 वटा मध्यवर्ती प्रशिक्षण चेकपोइन्टहरूको उपलब्धता हो। यी चेकपोइन्टहरूले प्रशिक्षण प्रक्रियाभरि नियमित अन्तरालमा मोडेलको अवस्था कैद गर्छन्, जसले अनुसन्धानकर्ताहरूलाई आन्तरिक प्रतिनिधित्व, क्षमता, र व्यवहारहरू समयसँगै कसरी उत्पन्न हुन्छन् र कसरी विकसित हुन्छन् भनेर ट्रेस गर्न सक्षम बनाउँछ। सार्वजनिक रूपमा जारी गरिएका भाषा मोडेलहरूमा यस्तो पारदर्शिता सामान्यतया पाइँदैन, र यो सुइटको डिजाइन दर्शनको केन्द्रबिन्दु हो।

यो सुविधाले Pythia 1B लाई प्रशिक्षण गतिशीलता, mechanistic interpretability, र scaling laws अध्ययनका लागि विशेष रूपमा मूल्यवान बनाउँछ। अनुसन्धानकर्ताहरूले चेकपोइन्टहरू प्रयोग गरेर जस्तै—विशेष भाषिक वा तथ्यात्मक ज्ञान कहिले प्राप्त हुन्छ, memorization कसरी विकास हुन्छ, वा प्रशिक्षणका क्रममा attention ढाँचाहरू कसरी बदलिन्छन्—जस्ता प्रश्नहरूको अनुसन्धान गर्न सक्छन्। Pythia सुइटका सबै मोडेलहरूमा एकै किसिमको प्रशिक्षण सेटअप कायम भएकाले विभिन्न परिमिति स्केलहरूबीच नियन्त्रित तुलनाहरू गर्न पनि सम्भव हुन्छ।

उद्देश्यित प्रयोग र पहुँचयोग्यता

Pythia 1B लाई स्पष्ट रूपमा अनुसन्धान प्रयोजनका लागि लक्षित गरिएको हो। यसको डिजाइनले कार्य-विशेष प्रदर्शनभन्दा पनि पुनरुत्पादनयोग्यता र व्याख्येयतालाई प्राथमिकता दिन्छ, र यसलाई उत्पादन वा अन्तिम-प्रयोगकर्ता तैनातीका लागि अनुकूलित वा सिफारिस गरिएको छैन। मोडेल वेटहरू, प्रशिक्षण डेटा, र मध्यवर्ती चेकपोइन्टहरूको खुला सार्वजनिकताले व्यापक वैज्ञानिक समुदायलाई यस कामको लेखाजोखा (audit), पुनरुत्पादन (replicate), र त्यसमा थप निर्माण गर्न सक्षम बनाउँछ।

मोडेल तुलनात्मक रूपमा 1 बिलियन परिमितिहरूमा सीमित भएकाले ठूला-स्तरका GPU पूर्वाधारमा पहुँच नभएका अनुसन्धानकर्ताहरूका लागि पनि यो कम्प्युटेसनल रूपमा पहुँचयोग्य रहन्छ, जसले भाषा मोडेलका आन्तरिक भागहरूमा प्रयोग (experiments) गर्ने बाधा घटाउँछ। Hugging Face मा यसको उपलब्धताले Transformers लाइब्रेरी र सम्बन्धित उपकरणहरू प्रयोग गरेर सामान्य अनुसन्धान कार्यप्रवाहसँग सजिलै एकीकरण गर्न सहज बनाउँछ।

रिपोर्ट