MosaicML ha recentemente rivelato il suo ultimo modello di linguaggio di grandi dimensioni (LLM) open source chiamato MPT-7B-8K. Questo modello conta ben 7 miliardi di parametri e ha una lunghezza del contesto di 8k.
Secondo l’azienda, MPT-7B-8K viene addestrato sulla piattaforma MosaicML, attraverso un processo di pre-addestramento che parte dal checkpoint MPT-7B. Questa fase di pre-addestramento è stata condotta utilizzando Nvidia H100 e ha richiesto tre giorni di formazione su 256 H100, integrando ben 500 miliardi di token di dati.
Precedentemente, MosaicML aveva attirato l’attenzione della comunità AI con il rilascio di MPT-30B, un LLM basato su decodificatore open source e con licenza commerciale. L’azienda ha sostenuto che MPT-30B fosse più potente di GPT-3-175B, pur avendo solo il 17% dei parametri di quest’ultimo, pari a 30 miliardi.
MPT-30B ha dimostrato di superare le prestazioni di GPT-3 in diverse attività ed è risultato più efficiente da addestrare rispetto ad altri modelli simili. Ad esempio, LLaMA-30B richiedeva circa il 44% in più di budget FLOP rispetto a MPT-30B, mentre Falcon-40B aveva un budget FLOP superiore del 27% rispetto a MPT-30B.
MosaicML afferma che il nuovo modello MPT-7B-8K mostra una straordinaria competenza nel riepilogo dei documenti e nella risposta alle domande, superando tutti i modelli rilasciati in precedenza.
L’azienda sostiene che il modello sia ottimizzato specificamente per l’addestramento e l’inferenza accelerati, offrendo risultati più rapidi. Inoltre, permette la messa a punto dei dati specifici del dominio all’interno della piattaforma MosaicML.
MosaicML ha anche annunciato la disponibilità di licenze per uso commerciale di MPT-7B-8K, evidenziando la sua formazione eccezionale su un ampio set di dati che comprende 1,5 trilioni di token, superando modelli simili come XGen, LLaMA, Pythia, OpenLLaMA e StableLM.
Attraverso l’utilizzo di FlashAttention e FasterTransformer, MosaicML afferma che il modello MPT-7B-8K eccelle nell’addestramento rapido e nell’inferenza, beneficiando anche del codice di addestramento open source disponibile tramite il repository llm-foundry.
L’azienda ha reso disponibile il modello in tre varianti:
- MPT-7B-8K-Base: un trasformatore in stile decoder preaddestrato basato su MPT-7B e ulteriormente ottimizzato con una lunghezza di sequenza estesa di 8k. È stato sottoposto a un addestramento supplementare con 500 miliardi di token, risultando in un corpus sostanziale di 1,5 trilioni di token che comprende testo e codice.
- MPT-7B-8K-Instruct: questo modello è progettato per attività di istruzione a lunga durata, come il riepilogo e la risposta alle domande. È stato creato perfezionando MPT-7B-8K utilizzando set di dati accuratamente selezionati.
- MPT-7B-8K-Chat: questa variante funziona come un modello simile a un chatbot, focalizzandosi sulla generazione di dialoghi. È stato creato perfezionando MPT-7B-8K con circa 1,5 miliardi di token di dati di chat.
Mosaic afferma che i modelli MPT-7B-8K presentano prestazioni paragonabili o superiori ad altri modelli open source attualmente disponibili con una lunghezza del contesto di 8k, come confermato dai test di valutazione del contesto di apprendimento dell’azienda.
Questo annuncio coincide con la presentazione da parte di Meta del modello LLaMA 2, ora disponibile su Microsoft Azure. A differenza di LLaMA 1, LLaMA 2 offre modelli di varie dimensioni, con 7, 13 e 70 miliardi di parametri.
Meta afferma che questi modelli pre-addestrati sono stati addestrati su un vasto set di dati, il 40% più grande di quello di LLaMA 1, con una lunghezza del contesto estesa di due trilioni di token, il doppio delle dimensioni di LLaMA 1. Secondo i benchmark di Meta, LLaMA 2 supera il suo predecessore.