StableLM Base Alpha 7B v2

Transformer 7B-13B CC-BY-SA 4.0 4K Yes
English

Ingresso

text

Uscita

text

Temi

generative ainlp

StableLM Base Alpha 7B v2 è un modello linguistico basato su trasformatore con pesi aperti sviluppato da Stability AI, rilasciato ad agosto 2023. Contiene 7 miliardi di parametri ed è progettato per attività di generazione del testo, supportando una lunghezza di contesto di 4.096 token.

Il modello è stato addestrato su circa 1,1 trilioni di token tratti da diversi grandi dataset, tra cui Falcon RefinedWeb, RedPajama-Data-1T, StarCoderData e altri, con caratteristiche architetturali che includono attivazioni SwiGLU e Rotary Position Embeddings (RoPE).

Rilasciato con la licenza CC BY-SA 4.0, è pensato per ricercatori e sviluppatori che cercano un modello di base con licenza permissiva per ulteriori ottimizzazioni o sperimentazioni ed è disponibile tramite Hugging Face con la libreria transformers.

Contesto e sviluppo

StableLM Base Alpha 7B v2 è la seconda iterazione della serie StableLM Base Alpha di Stability AI, rilasciata il 4 agosto 2023, con un aggiornamento successivo il 11 settembre 2023. Stability AI, azienda statunitense di intelligenza artificiale nota per il suo lavoro su modelli generativi open, ha sviluppato questo modello come parte del suo più ampio impegno per fornire modelli linguistici accessibili e con licenza aperta alla comunità di ricerca e di sviluppo.

Il modello è costruito su un’architettura di decoder transformer con 7 miliardi di parametri, collocandosi in una categoria di dimensioni intermedie adatta a sperimentazione e fine-tuning senza richiedere le risorse computazionali richieste da modelli più grandi. Supporta una finestra di contesto di 4.096 token ed è progettato esclusivamente per attività di generazione di testo in lingua inglese.

Architettura e addestramento

StableLM Base Alpha 7B v2 adotta diverse scelte di progettazione architetturale comuni ai moderni grandi modelli linguistici. Le sue specifiche strutturali principali includono:

  • 32 livelli transformer con una dimensione nascosta di 4.096
  • 32 teste di attenzione
  • Funzione di attivazione SwiGLU, che si è dimostrata in grado di migliorare l’efficienza dell’addestramento in modelli comparabili
  • Rotary Position Embeddings (RoPE) per codificare le informazioni posizionali

Il modello è stato addestrato su circa 1,1 trilioni di token ricavati da una combinazione di grandi dataset disponibili pubblicamente. Tra questi figurano Falcon RefinedWeb, RedPajama-Data-1T, PILEv2 di CarperAI, StarCoderData di BigCode e MiniPile. L’inclusione di StarCoderData significa che il modello ha esposizione a contenuti legati alla programmazione insieme a testo generico, ampliando la sua potenziale utilità oltre le sole attività di linguaggio naturale.

Licenze e accessibilità

StableLM Base Alpha 7B v2 è rilasciato con la licenza Creative Commons Attribution-ShareAlike 4.0 (CC BY-SA 4.0). Si tratta di una licenza relativamente permissiva per un modello di questa scala, che consente agli utenti di usare, modificare e ridistribuire il modello a condizione che venga fornita l’attribuzione e che le opere derivate siano condivise con la stessa licenza. Questo approccio di licensing lo distingue da alcuni modelli contemporanei che impongono condizioni d’uso più restrittive.

I pesi del modello sono disponibili pubblicamente su Hugging Face con l’identificatore stabilityai/stablelm-base-alpha-7b-v2 e sono compatibili con la libreria Hugging Face transformers, riducendo la barriera all’accesso per i professionisti che lavorano già all’interno di quell’ecosistema. In base ai dati disponibili, il modello ha accumulato circa 79.000 download sulla piattaforma.

Uso previsto e considerazioni

In quanto modello di base, StableLM Base Alpha 7B v2 non è ottimizzato per istruzioni né allineato per un uso conversazionale out of the box. È pensato principalmente come base per un ulteriore fine-tuning, consentendo a ricercatori e sviluppatori di adattarlo a compiti specifici downstream come completamento del testo, pipeline di summarization o applicazioni specifiche di dominio. Stability AI ha rilasciato separatamente varianti ottimizzate per istruzioni per gli utenti che cercano un modello più immediatamente interattivo.

La natura open-weights del modello e la licenza permissiva lo rendono un’opzione valida per ricerche accademiche, prototipazione e progetti di fine-tuning commerciale in cui trasparenza e accesso ai pesi sono priorità. Tuttavia, come per tutti i modelli linguistici di base addestrati su corpora reperiti sul web, le uscite possono riflettere bias presenti nei dati di addestramento sottostanti, e si raccomandano valutazioni appropriate e misure di salvaguardia prima dell’impiego in qualsiasi contesto di produzione.

Rapporto