MosaicML ha recentemente annunciato la disponibilità dei loro modelli più avanzati della serie MPT (MosaicML Pretrained Transformer), chiamati MPT-30B Base, Instruct e Chat. Questi modelli di linguaggio open source di grandi dimensioni superano la qualità del GPT-3 originale e possono essere utilizzati direttamente per l’inferenza o come punto di partenza per la creazione di modelli personalizzati. Sono stati addestrati utilizzando una finestra di contesto di token 8k e hanno dimostrato di essere altamente efficaci nel fornire risultati di alta qualità.
Un aspetto importante di questi nuovi modelli è che sono stati addestrati sulla piattaforma MosaicML, utilizzando gli acceleratori H100 di NVIDIA, che ora sono disponibili anche per i clienti di MosaicML. Questa partnership ha contribuito a migliorare l’efficienza di addestramento e inferenza, consentendo alle aziende di sfruttare la potenza dell’IA generativa senza compromettere la sicurezza o la riservatezza dei dati.
La famiglia di modelli MPT di MosaicML è già molto popolare nel campo dei modelli di linguaggio open source per uso commerciale. Dall’introduzione dei modelli MPT-7B (Base, Instruct, Chat, StoryWriter) il 5 maggio 2023, sono stati scaricati oltre 3,3 milioni di volte. La nuova versione, MPT-30B, estende ulteriormente questa famiglia di modelli, offrendo dimensioni maggiori e una qualità superiore, aprendo nuove possibilità di applicazione. Come sempre, i modelli MPT di MosaicML sono ottimizzati per garantire un addestramento e un’inferenza efficienti.
È degno di nota che, mentre celebriamo il terzo anniversario di GPT-3, il modello MPT-30B è stato appositamente progettato per superare la qualità di questo modello iconico. Utilizzando benchmark accademici standard, MPT-30B dimostra di superare il GPT-3 originale.
Inoltre, MPT-30B raggiunge questi risultati di alta qualità utilizzando solo circa 1/6 del numero di parametri rispetto a GPT-3. Mentre GPT-3 conta 175 miliardi di parametri, MPT-30B ne ha solo 30 miliardi. Questo rende MPT-30B più facile da eseguire su hardware locale e molto più economico da implementare per l’inferenza. Ciò offre alle aziende la possibilità di creare e distribuire i propri modelli di qualità GPT-3 di livello aziendale, ad un costo inferiore rispetto alle stime per il GPT-3 originale. L’addestramento di modelli personalizzati basati su GPT-3 diventa quindi un’opzione più accessibile per le aziende.
Un altro vantaggio di MPT-30B è il fatto che è stato addestrato su sequenze più lunghe rispetto a GPT-3 e ad altri modelli simili. MPT-30B può gestire sequenze di token fino a 8.000, rendendolo ideale per applicazioni aziendali che richiedono l’elaborazione di dati complessi e lunghi.
È interessante notare che MPT-30B è stato addestrato sulla potente GPU NVIDIA H100, rendendolo il primo modello LLM (Large Language Model) ad essere addestrato su questo tipo di hardware. Il team di MosaicML è stato in grado di effettuare il passaggio dall’utilizzo di cluster A100 a un nuovo cluster H100 in pochi giorni dalla consegna dell’hardware, aumentando significativamente il throughput per GPU e riducendo i tempi di completamento. MosaicML si impegna a fornire agli sviluppatori e alle aziende gli ultimi progressi nell’hardware e nel software, rendendo l’addestramento dei modelli più veloce e meno costoso rispetto al passato.
Diverse aziende hanno già iniziato a implementare i modelli MPT di MosaicML per una serie di casi d’uso, tra cui il completamento del codice e la generazione di dialoghi. Replit, uno dei principali IDE basati sul Web, ha potuto creare un nuovo modello di generazione del codice personalizzato, chiamato replit-code-v1-3b, utilizzando i propri dati insieme alla piattaforma di formazione di MosaicML. Questo modello ha notevolmente migliorato le prestazioni del loro prodotto GhostWriter in termini di velocità, costo e qualità del codice.
Un’altra azienda, Scatter Lab, una startup di intelligenza artificiale specializzata in “chatbot di intelligenza artificiale sociale”, ha addestrato il proprio modello MPT da zero per alimentare un chatbot personalizzato. Questo modello è uno dei primi modelli di intelligenza artificiale generativa multilingue in grado di comprendere sia l’inglese che il coreano, offrendo nuove esperienze di chat per i loro 1,5 milioni di utenti.