Pythia 1B
Кіріс
Шығыс
Санаттар
Тақырыптар
Pythia 1B — EleutherAI әзірлеген және 2023 жылдың наурызында шығарылған 1 миллиард параметрлі авторегресстік тілдік модель. GPT-NeoX архитектурасына негізделген: 16 трансформер қабаты, модель өлшемі 2048 және 8 attention басы бар. Ол ауқымды ашық бастапқы мәтіндік деректер жиынтығы The Pile бойынша оқытылды.
Модель кең ауқымды Pythia жиынтығының құрамына кіреді және тіл модельдерінің интерпретациялануын әрі қайта өндірілуін зерттеуді қолдауға арнайы жасалған: оқыту барысында тіл модельдерінің қалай дамитынын егжей-тегжейлі талдауға мүмкіндік беретін 154 аралық оқыту чекпойнты ұсынылады. Pythia 1B Apache 2.0 лицензиясы бойынша ашық қолжетімді, толық салмақтары Hugging Face-те жарияланған, сондықтан оны академиялық және зерттеу мақсатында қолдануға болады.
Оның негізгі мақсаты — тіл модельдерінің мінез-құлқын, масштабтау заңдарын және оқыту динамикасын зерттейтін зерттеушілерге арналған; жалпы мақсаттағы орналастыруға емес.
Фон және әзірлеу
Pythia 1B — EleutherAI әзірлеген үлкен тілдік модельдер жиынтығы болып табылатын Pythia модельдер жиынтығының бір бөлігі. EleutherAI — Америка Құрама Штаттарында орналасқан коммерциялық емес AI зерттеу ұйымы. Модель 2023 жылдың 10 наурызында шығарылды және жалпы мақсаттағы қолдануға емес, нақты зерттеу бағытына сай жасалды. EleutherAI Pythia жиынтығын тілдік модельдердің оқыту үдерісі кезінде қабілеттері мен мінез-құлқын қалай қалыптастыратынын зерттеуге арналған ашық қолжетімді құралдардағы олқылықты жою үшін әзірледі. 1B нұсқасы жиынтық ішіндегі орташа көлемді білдіреді: есептеу тұрғысынан қолжетімділік пен егжей-тегжейлі эмпирикалық зерттеуге жарамды модель мүмкіндіктері арасындағы теңгерімді ұсынады.
Модель EleutherAI іріктеп құрастырған 825 ГБ көлеміндегі ашық бастапқы The Pile деректер жиынында оқытылды. Бұл деректер жиынтығы кітаптар, академиялық мақалалар, код репозиторийлері және веб-контент сияқты дереккөздерден алынған ағылшын тіліндегі әртүрлі мәтіндерді қамтиды. Оқыту 2 миллион токеннен тұратын батч өлшемімен және 3.0e-4 оқу жылдамдығымен жүргізілді; GPT-NeoX кітапханасы негізгі оқыту фреймворкі ретінде пайдаланылды.
Архитектура және техникалық сипаттамалар
Pythia 1B GPT-NeoX трансформатор архитектурасына негізделген, gpt_neox архитектуралық нұсқасын енгізеді. Оның негізгі құрылымдық параметрлері мыналарды қамтиды:
- 16 трансформатор қабаты
- Модель өлшемі 2048
- 8 attention head
- Шамамен 1 миллиард жалпы параметр, оның ішінде шамамен 805 миллион embedding-ке жатпайтын параметр
Модель мәтінді кіріс және шығыс модальділігі ретінде қабылдайды, стандартты авторегрессионды мәтін генерациялау моделінің рөлін атқарады. Салмақтар Hugging Face сайтында EleutherAI/pythia-1b идентификаторы бойынша ашық түрде жарияланды және Apache 2.0 лицензиясы бойынша таратылады; бұл зерттеулерде және туынды жұмыстарда кең ауқымды қолдануға, шектеулерді барынша азайта отырып, мүмкіндік береді.
Зерттеу үлестері және аралық бақылау нүктелері
Pythia 1B-нің ерекшелендіретін сипаттамаларының бірі — 154 аралық оқыту бақылау нүктесінің қолжетімді болуы. Бұл бақылау нүктелері оқыту үдерісі барысында тұрақты интервалдармен модельдің күйін сақтайды, соның арқасында зерттеушілер ішкі көріністердің, қабілеттердің және мінез-құлықтың уақыт өте келе қалай пайда болып, қалай өзгеретінін қадағалай алады. Мұндай ашықтық деңгейі көпшілікке шығарылған тілдік модельдер арасында сирек кездеседі және жиынтықтың жобалау философиясының өзегіне жатады.
Бұл мүмкіндік Pythia 1B-ні оқыту динамикасын, механизмдік интерпретацияны зерттеуге және масштабтау заңдарын қарастыруға арналған зерттеулер үшін әсіресе құнды етеді. Зерттеушілер бақылау нүктелерін белгілі бір лингвистикалық немесе фактілік білімнің қашан қалыптасатынын, жаттаудың (memorization) қалай дамитынын немесе оқыту барысында attention үлгілерінің қалай ауысатынын сияқты сұрақтарды зерттеу үшін пайдалана алады. Pythia жиынтығындағы барлық модельдер үшін оқытудың тұрақты конфигурациясы әртүрлі параметрлік масштабтар арасында бақыланатын салыстырулар жасауға да мүмкіндік береді.
Көзделген қолдану және қолжетімділік
Pythia 1B нақты түрде зерттеу мақсаттарына арналған. Оның дизайнында тапсырмаға тәуелді өнімділіктен гөрі қайта жаңғыртылғыштық пен интерпретацияға басымдық беріледі, сондықтан оны өндірістік ортаға немесе соңғы пайдаланушыға арналған орналастыруға оңтайландырмайды және ұсынбайды. Модель салмақтарының, оқыту деректерінің және аралық бақылау нүктелерінің ашық жариялануы ғылыми қауымдастықтың жұмысты тексеруге, қайта жасауға және соның негізінде жаңа зерттеулер құруға қабілетін арттырады.
Модель 1 миллиард параметр көлемінде салыстырмалы түрде ықшам болғандықтан, ол ірі масштабты GPU инфрақұрылымына қолжетімділігі жоқ зерттеушілер үшін де есептеу тұрғысынан қолжетімді күйінде қалады; бұл тілдік модельдердің ішкі құрылымына қатысты тәжірибелер жүргізу үшін кедергіні төмендетеді. Оның Hugging Face сайтында қолжетімді болуы Transformers кітапханасын және оған қатысты құралдарды пайдаланып, кең таралған зерттеу жұмыс ағындарымен оңай интеграциялауға мүмкіндік береді.