Transformer 1B-7B Apache 2.0 Yes
English

Įvestis

text

Išėjimas

text

Temos

generative ainlpresearch

Pythia 1B yra 1 milijardo parametrų autoregresinis kalbos modelis, kurį sukūrė EleutherAI ir kuris buvo išleistas 2023 m. kovo mėn. Sukurtas pagal GPT-NeoX architektūrą su 16 transformerių sluoksnių, 2048 matmens modeliu ir 8 dėmesio galvomis. Modelis buvo treniruojamas naudojant The Pile – didelio masto atvirojo kodo tekstinių duomenų rinkinį.

Modelis yra platesnės Pythia sistemos dalis, kuri specialiai sukurta interpretavimo ir atkuriamumo tyrimams remti, suteikiant 154 tarpinio mokymo kontrolinius taškus, leidžiančius atlikti išsamią analizę, kaip kalbos modeliai keičiasi mokymo metu. Pythia 1B yra atvirai prieinamas pagal Apache 2.0 licenciją, o pilni svoriai išleisti per Hugging Face, todėl jis yra pasiekiamas akademiniams ir moksliniams tikslams.

Numatyta šio modelio auditorija – tyrėjai, tiriantys kalbos modelių elgseną, mastelio dėsnius ir mokymo dinamiką, o ne bendros paskirties diegimą.

Fonas ir kūrimas

Pythia 1B yra Pythia modelių rinkinio dalis – didelių kalbos modelių kolekcija, kurią sukūrė EleutherAI, ne pelno siekianti AI mokslinių tyrimų organizacija, įsikūrusi Jungtinėse Amerikos Valstijose. Modelis buvo išleistas 2023 m. kovo 10 d., o sukurtas turint konkretų mokslinių tyrimų tikslą, o ne bendros paskirties diegimą. EleutherAI suprojektavo Pythia rinkinį siekdama užpildyti viešai prieinamų įrankių spragą, skirtą tirti, kaip kalbos modeliai mokymo proceso metu įgyja gebėjimų ir elgsenų. 1B variantas atitinka vidutinio dydžio modelį rinkinyje, siūlantį pusiausvyrą tarp skaičiavimo prieinamumo ir modelio galimybių, tinkamų išsamiems empiriniams tyrimams.

Modelis buvo apmokytas naudojant The Pile – 825 GB atvirojo kodo duomenų rinkinį, kurį atrinko EleutherAI. Jame yra įvairus anglų kalbos tekstas iš šaltinių, įskaitant knygas, akademinius straipsnius, kodo saugyklas ir interneto turinį. Mokymui naudotas 2 milijonų žetonų partijos dydis ir 3.0e-4 mokymosi sparta, o GPT-NeoX biblioteka buvo naudojama kaip pagrindinė mokymo sistema.

Architektūra ir techninės specifikacijos

Pythia 1B sukurtas remiantis GPT-NeoX transformatoriaus architektūra, įgyvendinant gpt_neox architektūrinį variantą. Pagrindiniai struktūriniai parametrai apima:

  • 16 transformatoriaus sluoksnių
  • Modelio dimensiją 2048
  • 8 dėmesio galvas
  • Apie 1 milijardą bendrųjų parametrų, iš kurių maždaug 805 milijonai nėra įterpimo (embedding) parametrai

Modelis priima tekstą kaip įvesties ir išvesties modalumą, veikdamas kaip standartinis autoregresinis teksto generavimo modelis. Svorai atvirai išleidžiami per Hugging Face su identifikatoriumi EleutherAI/pythia-1b ir platinami pagal Apache 2.0 licenciją, leidžiančią plačiai naudoti moksliniuose tyrimuose ir išvestiniuose darbuose su minimaliais apribojimais.

Moksliniai indėliai ir tarpiniai kontroliniai taškai

Vienas iš išskirtinių Pythia 1B bruožų – 154 tarpinių mokymo kontrolinių taškų prieinamumas. Šie kontroliniai taškai fiksuoja modelio būseną reguliariais intervalais viso mokymo proceso metu, todėl tyrėjai gali sekti, kaip laikui bėgant formuojasi ir kinta vidinės reprezentacijos, gebėjimai bei elgsenos. Toks skaidrumo lygis retai sutinkamas viešai išleistuose kalbos modeliuose ir yra kertinis rinkinio kūrimo filosofijos akmuo.

Ši savybė daro Pythia 1B ypač vertingą tyrimams, susijusiems su mokymo dinamika, mechanistiniu interpretavimu ir mastelio dėsnių nagrinėjimu. Tyrėjai gali naudoti kontrolinius taškus, kad tirtų tokias klausimų grupes kaip tai, kada įgyjamos konkrečios lingvistinės ar faktinės žinios, kaip vystosi įsiminimas (memorization) arba kaip mokymo metu keičiasi dėmesio (attention) modeliai. Nuoseklus mokymo nustatymas visuose Pythia rinkinio modeliuose taip pat leidžia kontroliuojamus palyginimus tarp skirtingų parametrų mastelių.

Numatytas naudojimas ir prieinamumas

Pythia 1B aiškiai skirtas moksliniams tyrimams. Jo dizainas teikia pirmenybę atkuriamumui ir interpretavimui, o ne užduočiai pritaikytam našumui, todėl jis nėra optimizuotas ar rekomenduojamas gamybai ar galutinių naudotojų diegimui. Atviras modelio svorų, mokymo duomenų ir tarpinių kontrolinių taškų išleidimas palaiko platesnę mokslinę bendruomenę, galinčią audituoti, atkartoti ir remtis šiuo darbu.

Kadangi modelis yra palyginti kompaktiškas – 1 milijardo parametrų – jis išlieka skaičiavimo požiūriu prieinamas tyrėjams, neturintiems prieigos prie didelio masto GPU infrastruktūros, taip sumažinant barjerą eksperimentams su kalbos modelių vidiniais mechanizmais. Jo prieinamumas per Hugging Face užtikrina paprastą integraciją su įprastais mokslinių tyrimų srautais naudojant Transformers biblioteką ir susijusias priemones.

Ataskaita