Pythia 1B

पृष्ठभूमि र विकास

Pythia 1B, EleutherAI द्वारा विकसित ठूलो भाषा मोडेलहरूको एक समूह Pythia मोडेल सुइटको हिस्सा हो। EleutherAI संयुक्त राज्य अमेरिकामा आधारित एक गैर-नाफामूलक AI अनुसन्धान संस्था हो। यो मोडेल मार्च 10, 2023 मा सार्वजनिक गरिएको थियो, र सामान्य-उद्देश्यीय प्रयोगका लागि होइन, विशेष अनुसन्धान केन्द्रितताका साथ निर्माण गरिएको थियो। EleutherAI ले भाषा मोडेलहरूले प्रशिक्षण प्रक्रियाको क्रममा कसरी क्षमता र व्यवहार विकास गर्छन् भन्ने अध्ययन गर्न सार्वजनिक रूपमा उपलब्ध उपकरणहरूको अभावलाई सम्बोधन गर्न Pythia सुइट डिजाइन गरेको हो। 1B भेरियन्ट सुइटभित्रको मध्यस्तरीय आकार हो, जसले कम्प्युटेसनल पहुँचयोग्यता र विस्तृत अनुभवजन्य अध्ययनका लागि उपयुक्त मोडेल क्षमताबीच सन्तुलन प्रदान गर्छ।

यो मोडेल The Pile मा प्रशिक्षित गरिएको थियो, जुन EleutherAI द्वारा क्युरेट गरिएको 825 GB को खुला-स्रोत डेटासेट हो र यसमा पुस्तकहरू, शैक्षिक पत्रहरू, कोड रिपोजिटरीहरू, तथा वेब सामग्रीलगायतका स्रोतहरूबाट विविध अंग्रेजी भाषाका पाठहरू समावेश छन्। प्रशिक्षणमा 2 मिलियन टोकनको ब्याच साइज र 3.0e-4 को लर्निङ रेट प्रयोग गरिएको थियो, र GPT-NeoX लाइब्रेरीले आधारभूत प्रशिक्षण फ्रेमवर्कको रूपमा काम गरेको थियो।

आर्किटेक्चर र प्राविधिक विशिष्टताहरू

Pythia 1B, GPT-NeoX ट्रान्सफर्मर आर्किटेक्चरमा आधारित छ, जसले gpt_neox आर्किटेक्चरल भेरियन्ट लागू गर्छ। यसको मुख्य संरचनात्मक परिमितिहरूमा समावेश छन्:

16 ट्रान्सफर्मर तहहरू
2048 को मोडेल आयाम
8 वटा attention heads
लगभग 1 बिलियन कुल परिमितिहरू, जसमा करिब 805 मिलियन non-embedding परिमितिहरू छन्

यो मोडेल इनपुट र आउटपुट दुवैका लागि पाठ स्वीकार्छ, र एक मानक autoregressive पाठ उत्पादन मोडेलका रूपमा काम गर्छ। वेटहरू Hugging Face मा EleutherAI/pythia-1b पहिचानकर्ताअन्तर्गत खुला रूपमा जारी गरिएका छन् र Apache 2.0 लाइसेन्सअन्तर्गत वितरण गरिएका छन्, जसले न्यूनतम प्रतिबन्धसहित अनुसन्धान र व्युत्पन्न कार्यमा व्यापक प्रयोग गर्न अनुमति दिन्छ।

अनुसन्धान योगदान र मध्यवर्ती चेकपोइन्टहरू

Pythia 1B को विशिष्ट विशेषतामध्ये एक भनेको 154 वटा मध्यवर्ती प्रशिक्षण चेकपोइन्टहरूको उपलब्धता हो। यी चेकपोइन्टहरूले प्रशिक्षण प्रक्रियाभरि नियमित अन्तरालमा मोडेलको अवस्था कैद गर्छन्, जसले अनुसन्धानकर्ताहरूलाई आन्तरिक प्रतिनिधित्व, क्षमता, र व्यवहारहरू समयसँगै कसरी उत्पन्न हुन्छन् र कसरी विकसित हुन्छन् भनेर ट्रेस गर्न सक्षम बनाउँछ। सार्वजनिक रूपमा जारी गरिएका भाषा मोडेलहरूमा यस्तो पारदर्शिता सामान्यतया पाइँदैन, र यो सुइटको डिजाइन दर्शनको केन्द्रबिन्दु हो।

यो सुविधाले Pythia 1B लाई प्रशिक्षण गतिशीलता, mechanistic interpretability, र scaling laws अध्ययनका लागि विशेष रूपमा मूल्यवान बनाउँछ। अनुसन्धानकर्ताहरूले चेकपोइन्टहरू प्रयोग गरेर जस्तै—विशेष भाषिक वा तथ्यात्मक ज्ञान कहिले प्राप्त हुन्छ, memorization कसरी विकास हुन्छ, वा प्रशिक्षणका क्रममा attention ढाँचाहरू कसरी बदलिन्छन्—जस्ता प्रश्नहरूको अनुसन्धान गर्न सक्छन्। Pythia सुइटका सबै मोडेलहरूमा एकै किसिमको प्रशिक्षण सेटअप कायम भएकाले विभिन्न परिमिति स्केलहरूबीच नियन्त्रित तुलनाहरू गर्न पनि सम्भव हुन्छ।

उद्देश्यित प्रयोग र पहुँचयोग्यता

Pythia 1B लाई स्पष्ट रूपमा अनुसन्धान प्रयोजनका लागि लक्षित गरिएको हो। यसको डिजाइनले कार्य-विशेष प्रदर्शनभन्दा पनि पुनरुत्पादनयोग्यता र व्याख्येयतालाई प्राथमिकता दिन्छ, र यसलाई उत्पादन वा अन्तिम-प्रयोगकर्ता तैनातीका लागि अनुकूलित वा सिफारिस गरिएको छैन। मोडेल वेटहरू, प्रशिक्षण डेटा, र मध्यवर्ती चेकपोइन्टहरूको खुला सार्वजनिकताले व्यापक वैज्ञानिक समुदायलाई यस कामको लेखाजोखा (audit), पुनरुत्पादन (replicate), र त्यसमा थप निर्माण गर्न सक्षम बनाउँछ।

मोडेल तुलनात्मक रूपमा 1 बिलियन परिमितिहरूमा सीमित भएकाले ठूला-स्तरका GPU पूर्वाधारमा पहुँच नभएका अनुसन्धानकर्ताहरूका लागि पनि यो कम्प्युटेसनल रूपमा पहुँचयोग्य रहन्छ, जसले भाषा मोडेलका आन्तरिक भागहरूमा प्रयोग (experiments) गर्ने बाधा घटाउँछ। Hugging Face मा यसको उपलब्धताले Transformers लाइब्रेरी र सम्बन्धित उपकरणहरू प्रयोग गरेर सामान्य अनुसन्धान कार्यप्रवाहसँग सजिलै एकीकरण गर्न सहज बनाउँछ।

इनपुट

आउटपुट

वर्गहरू

थिमहरू

पृष्ठभूमि र विकास

आर्किटेक्चर र प्राविधिक विशिष्टताहरू

अनुसन्धान योगदान र मध्यवर्ती चेकपोइन्टहरू

उद्देश्यित प्रयोग र पहुँचयोग्यता