È così che DeepSpeed ​​sta giocando un ruolo nello sforzo di Microsoft AI su larga scala
Nel complesso, le scoperte e le infrastrutture presentano un potenziale percorso verso la formazione e l’inferenza della prossima generazione di scalabilità dell’IA senza più risorse di calcolo.
 
I più grandi modelli densi addestrati sono cresciuti di quasi 1.000 volte negli ultimi tre anni, da poche centinaia di milioni a oltre 500 miliardi di parametri in Megatron-Turing NLG 530B (MT-NLG). Tuttavia, mantenere l’espansione delle dimensioni del modello sta diventando più difficile a causa dei crescenti requisiti di elaborazione. Pertanto, sono stati fatti numerosi tentativi per ridurre al minimo la quantità di calcolo richiesta per addestrare modelli di grandi dimensioni senza influire sulla qualità del modello. A tal fine, le architetture basate su Mixture of Experts (MoE) hanno aperto la strada, consentendo requisiti di calcolo sublineari in conformità con i parametri del modello e una migliore qualità del modello senza aumentare i costi di formazione.

I modelli MoE, d’altra parte, hanno una propria serie di difficoltà.
In primo luogo, i modelli MoE sono per lo più limitati a modelli di codificatore-decodificatore e attività da sequenza a sequenza.
In secondo luogo, mentre i modelli MoE richiedono meno calcolo, richiedono più parametri per raggiungere la stessa qualità del modello delle loro controparti dense, il che richiede più memoria per l’addestramento e l’inferenza.
Infine, i modelli MoE rendono l’inferenza difficile e costosa a causa delle loro enormi dimensioni.

Cos’è DeepSpeed?
Per affrontare i problemi sui modelli MoE, il team di DeepSpeed ​​ha studiato nuove applicazioni e ottimizzazioni per i modelli MoE su larga scala nell’ambito dello sforzo AI su scala di Microsoft. Questi possono ridurre il costo della formazione e dell’inferenza per i modelli di grandi dimensioni, consentendo anche la formazione e l’assistenza della prossima generazione di modelli sulla tecnologia odierna.

DeepSpeed ​​è un modulo compatibile con PyTorch che migliora notevolmente l’addestramento di modelli di grandi dimensioni aumentando la scalabilità, le prestazioni, i costi e l’usabilità, consentendo di addestrare modelli con oltre 100 miliardi di parametri. ZeRO 2, un ottimizzatore parallelizzato nel toolkit DeepSpeed, riduce drasticamente le risorse richieste per il modello e il parallelismo dei dati, ampliando notevolmente il numero di parametri che il modello può apprendere.

In che modo DeepSpeed ​​sfrutta MoE
DeepSpeed ​​riduce i costi di formazione di 5 volte

Microsoft dimostra che MoE può ridurre di 5 volte i costi di formazione dei modelli NLG come la famiglia GPT o MT-NLG mantenendo la stessa qualità del modello, ampliando l’applicabilità dei modelli MoE oltre i modelli encoder-decoder e le attività da sequenza a sequenza. Di conseguenza, i data scientist possono ora addestrare modelli di qualità superiore che in precedenza richiedevano una quantità di hardware 5 volte superiore.

DeepSpeed ​​riduce le dimensioni dei parametri MoE fino a 3,7 volte

I ridotti costi di formazione di MoE hanno il costo di aumentare il numero totale di parametri necessari per ottenere la stessa qualità del modello dei modelli densi. PR-MoE è un modello ibrido denso e MoE costruito utilizzando connessioni residue che applica esperti solo dove sono più utili. PR-MoE riduce la dimensione dei parametri del modello MoE fino a 3 volte mantenendo la qualità del modello. Inoltre, Microsoft utilizza la distillazione della conoscenza per fasi per apprendere un modello Mixture-of-Students, che riduce le dimensioni del modello fino a 3,7 volte mantenendo la qualità del modello.

DeepSpeed ​​riduce la latenza dell’inferenza MoE di 7,3 volte su una scala senza precedenti e fornisce un’inferenza fino a 4,5 volte più veloce e 9 volte più economica per i modelli MoE rispetto ai modelli densi equivalenti alla qualità.

Rispetto ai sistemi convenzionali, il sistema di inferenza DeepSpeed-MoE (DS-MoE) consente un ridimensionamento efficace dei carichi di lavoro di inferenza su centinaia di GPU, con una riduzione di 7,3 volte la latenza e i costi dell’inferenza. Inoltre, per i modelli MoE da trilioni di parametri, fornisce latenze di inferenza ultraveloci (25 ms). Integrando sia il sistema che l’ottimizzazione del modello, DS-MoE può fornire un’inferenza fino a 4,5 volte più veloce e 9 volte più economica per i modelli MoE rispetto ai modelli densi equivalenti alla qualità.

Nel complesso, le scoperte e le infrastrutture presentano un potenziale percorso verso la formazione e l’inferenza della prossima generazione di scalabilità dell’IA senza più risorse di calcolo. Inoltre, il passaggio da modelli MoE densi a modelli sparsi potrebbe aprire la strada a nuovi percorsi nel panorama dei modelli di grandi dimensioni, come l’implementazione di modelli di qualità superiore con meno risorse e la realizzazione di un’IA su larga scala più sostenibile riducendo il suo impatto ambientale.

Di ihal