Tutel di Microsoft ottimizza la formazione del modello di intelligenza artificiale

Microsoft questa settimana ha annunciato Tutel , una libreria per supportare lo sviluppo di modelli di miscela di esperti (MoE) , un particolare tipo di modello di intelligenza artificiale su larga scala. Tutel, che è open source ed è stato integrato in fairseq, uno dei toolkit di Facebook in PyTorch, è progettato per consentire agli sviluppatori di tutte le discipline AI di “eseguire MoE in modo più semplice ed efficiente”, ha spiegato una dichiarazione di Microsoft.I MoE sono costituiti da piccoli gruppi di “neuroni” che sono attivi solo in circostanze speciali e specifiche. Gli “strati” inferiori delle funzionalità di estrazione del modello MoE e gli esperti sono chiamati a valutare tali funzionalità. Ad esempio, i MoE possono essere utilizzati per creare un sistema di traduzione, con ogni gruppo di esperti che impara a gestire una parte separata del discorso o una regola grammaticale speciale.

Rispetto ad altre architetture modello, i MoE presentano vantaggi distinti. Possono rispondere alle circostanze con specializzazione, consentendo al modello di mostrare una gamma più ampia di comportamenti. Gli esperti possono ricevere una combinazione di dati e, quando il modello è in funzione, solo pochi esperti sono attivi, anche un modello enorme richiede solo una piccola quantità di potenza di elaborazione. 
In effetti, MoE è uno dei pochi approcci che ha dimostrato di scalare fino a più di un trilione di parametri, aprendo la strada a modelli in grado di potenziare la visione artificiale, il riconoscimento vocale, l’elaborazione del linguaggio naturale e i sistemi di traduzione automatica, tra gli altri. Nell’apprendimento automatico, i parametri sono la parte del modello appresa dai dati di addestramento cronologici. In generale, soprattutto nel dominio linguistico, la correlazione tra numero di parametri e sofisticatezza ha retto bene.

Tutel si concentra principalmente sulle ottimizzazioni del calcolo specifico del MoE. In particolare, la libreria è ottimizzata per le nuove istanze della serie Azure NDm A100 v4 di Microsoft, che forniscono una scala mobile di GPU Nvidia A100. Tutel ha un’interfaccia “concisa” destinata a semplificare l’integrazione in altre soluzioni MoE, afferma Microsoft. In alternativa, gli sviluppatori possono utilizzare l’interfaccia Tutel per incorporare da zero livelli MoE autonomi nei propri modelli DNN.

Sopra: per un singolo livello MoE, Tutel raggiunge un’accelerazione di 8,49 volte su un nodo NDm A100 v4 con 8 GPU e un’accelerazione di 2,75 volte su nodi 64 NDm A100 v4 con 512 GPU A100, afferma Microsoft.
“A causa della mancanza di implementazioni efficienti, i modelli basati su MoE si basano su una combinazione ingenua di più operatori standard forniti da framework di deep learning come PyTorch e TensorFlow per comporre il calcolo MoE. Tale pratica comporta notevoli spese generali per le prestazioni grazie al calcolo ridondante”, ha scritto Microsoft in un post sul blog. (Gli operatori forniscono un modello con un set di dati noto che include input e output desiderati). “Tutel progetta e implementa più kernel GPU altamente ottimizzati per fornire agli operatori calcoli specifici per MoE”.

 
Tutel è disponibile in open source su GitHub. Microsoft afferma che il team di sviluppo di Tutel “integrerà attivamente” vari algoritmi MoE emergenti dalla comunità nelle versioni future.

“MoE è una tecnologia promettente. Consente una formazione olistica basata su tecniche provenienti da molte aree, come il routing sistematico e il bilanciamento della rete con nodi di grandi dimensioni, e può anche beneficiare dell’accelerazione basata su GPU. Dimostriamo un’implementazione efficiente del MoE, Tutel, che ha portato a un guadagno significativo rispetto al framework fairseq. Anche Tutel è stato integrato [con il nostro] framework DeepSpeed e riteniamo che Tutel e le relative integrazioni andranno a beneficio dei servizi di Azure, in particolare per coloro che desiderano ridimensionare i propri modelli di grandi dimensioni in modo efficiente”, ha aggiunto Microsoft.

Di ihal