Pythia 1B

Fonas ir kūrimas

Pythia 1B yra Pythia modelių rinkinio dalis – didelių kalbos modelių kolekcija, kurią sukūrė EleutherAI, ne pelno siekianti AI mokslinių tyrimų organizacija, įsikūrusi Jungtinėse Amerikos Valstijose. Modelis buvo išleistas 2023 m. kovo 10 d., o sukurtas turint konkretų mokslinių tyrimų tikslą, o ne bendros paskirties diegimą. EleutherAI suprojektavo Pythia rinkinį siekdama užpildyti viešai prieinamų įrankių spragą, skirtą tirti, kaip kalbos modeliai mokymo proceso metu įgyja gebėjimų ir elgsenų. 1B variantas atitinka vidutinio dydžio modelį rinkinyje, siūlantį pusiausvyrą tarp skaičiavimo prieinamumo ir modelio galimybių, tinkamų išsamiems empiriniams tyrimams.

Modelis buvo apmokytas naudojant The Pile – 825 GB atvirojo kodo duomenų rinkinį, kurį atrinko EleutherAI. Jame yra įvairus anglų kalbos tekstas iš šaltinių, įskaitant knygas, akademinius straipsnius, kodo saugyklas ir interneto turinį. Mokymui naudotas 2 milijonų žetonų partijos dydis ir 3.0e-4 mokymosi sparta, o GPT-NeoX biblioteka buvo naudojama kaip pagrindinė mokymo sistema.

Architektūra ir techninės specifikacijos

Pythia 1B sukurtas remiantis GPT-NeoX transformatoriaus architektūra, įgyvendinant gpt_neox architektūrinį variantą. Pagrindiniai struktūriniai parametrai apima:

16 transformatoriaus sluoksnių
Modelio dimensiją 2048
8 dėmesio galvas
Apie 1 milijardą bendrųjų parametrų, iš kurių maždaug 805 milijonai nėra įterpimo (embedding) parametrai

Modelis priima tekstą kaip įvesties ir išvesties modalumą, veikdamas kaip standartinis autoregresinis teksto generavimo modelis. Svorai atvirai išleidžiami per Hugging Face su identifikatoriumi EleutherAI/pythia-1b ir platinami pagal Apache 2.0 licenciją, leidžiančią plačiai naudoti moksliniuose tyrimuose ir išvestiniuose darbuose su minimaliais apribojimais.

Moksliniai indėliai ir tarpiniai kontroliniai taškai

Vienas iš išskirtinių Pythia 1B bruožų – 154 tarpinių mokymo kontrolinių taškų prieinamumas. Šie kontroliniai taškai fiksuoja modelio būseną reguliariais intervalais viso mokymo proceso metu, todėl tyrėjai gali sekti, kaip laikui bėgant formuojasi ir kinta vidinės reprezentacijos, gebėjimai bei elgsenos. Toks skaidrumo lygis retai sutinkamas viešai išleistuose kalbos modeliuose ir yra kertinis rinkinio kūrimo filosofijos akmuo.

Ši savybė daro Pythia 1B ypač vertingą tyrimams, susijusiems su mokymo dinamika, mechanistiniu interpretavimu ir mastelio dėsnių nagrinėjimu. Tyrėjai gali naudoti kontrolinius taškus, kad tirtų tokias klausimų grupes kaip tai, kada įgyjamos konkrečios lingvistinės ar faktinės žinios, kaip vystosi įsiminimas (memorization) arba kaip mokymo metu keičiasi dėmesio (attention) modeliai. Nuoseklus mokymo nustatymas visuose Pythia rinkinio modeliuose taip pat leidžia kontroliuojamus palyginimus tarp skirtingų parametrų mastelių.

Numatytas naudojimas ir prieinamumas

Pythia 1B aiškiai skirtas moksliniams tyrimams. Jo dizainas teikia pirmenybę atkuriamumui ir interpretavimui, o ne užduočiai pritaikytam našumui, todėl jis nėra optimizuotas ar rekomenduojamas gamybai ar galutinių naudotojų diegimui. Atviras modelio svorų, mokymo duomenų ir tarpinių kontrolinių taškų išleidimas palaiko platesnę mokslinę bendruomenę, galinčią audituoti, atkartoti ir remtis šiuo darbu.

Kadangi modelis yra palyginti kompaktiškas – 1 milijardo parametrų – jis išlieka skaičiavimo požiūriu prieinamas tyrėjams, neturintiems prieigos prie didelio masto GPU infrastruktūros, taip sumažinant barjerą eksperimentams su kalbos modelių vidiniais mechanizmais. Jo prieinamumas per Hugging Face užtikrina paprastą integraciją su įprastais mokslinių tyrimų srautais naudojant Transformers biblioteką ir susijusias priemones.

Įvestis

Išėjimas

Kategorijos

Temos

Fonas ir kūrimas

Architektūra ir techninės specifikacijos

Moksliniai indėliai ir tarpiniai kontroliniai taškai

Numatytas naudojimas ir prieinamumas