PaLM non solo è addestrato con il tanto pubblicizzato sistema Pathway di Google (introdotto lo scorso anno), ma evita anche di utilizzare il parallelismo della pipeline, una strategia utilizzata tradizionalmente per i modelli linguistici di grandi dimensioni.
 

Il nuovo Pathways Language Model ( PaLM ) di Google AI, un modello di 540 miliardi di parametri, è interessante non solo per le sue dimensioni o anche per le sue prestazioni, ma anche per il modo in cui è stato addestrato. Non solo viene addestrato con il tanto pubblicizzato sistema Pathway di Google (introdotto lo scorso anno), ma evita anche di utilizzare il parallelismo della pipeline, una strategia utilizzata tradizionalmente per i modelli linguistici di grandi dimensioni.


Formazione Palm
L’anno scorso, Google ha introdotto Pathways, un unico modello addestrato a fare migliaia, persino milioni di cose, pubblicizzato come “l’architettura di intelligenza artificiale di nuova generazione”, che potrebbe rimuovere le carenze del modello tradizionale secondo cui sono addestrati a fare solo una cosa. In genere, invece di estendere le capacità dei modelli esistenti, viene sviluppato un nuovo modello da zero per eseguire un solo compito. Il risultato è che abbiamo finito per sviluppare migliaia di modelli per migliaia di attività individuali. Questo è un esercizio che richiede tempo e risorse. Con Pathways, Google ha dimostrato che un modello può gestire molte attività separate e attingere e combinare le competenze esistenti per apprendere nuove attività in modo più rapido ed efficiente. I percorsi potrebbero anche abilitare modelli multimodali che comprendono visione, comprensione del linguaggio,

Con un modello di 540 miliardi di parametri , Pathways Language Model (PaLM) consente l’addestramento di un singolo modello su più pod TPU v4. Un modello Transformer denso solo con decoder, PaLM raggiunge prestazioni all’avanguardia per tutte le attività con un margine significativo. PaLM è addestrato su due pod TPU v4, collegati su una rete di data center (DCN). Utilizza una combinazione di modello e parallelismo dei dati. Per PaLM, i ricercatori hanno utilizzato 3072 chip TPU v4 in ciascun Pod che erano collegati a 768 host. Il team afferma che questa è la più grande configurazione TPU descritta fino ad oggi, che ha consentito loro di scalare in modo efficiente l’addestramento senza utilizzare alcun parallelismo della pipeline.

La pipeline, in termini generali, si riferisce al processo di accumulo di istruzioni dal processore attraverso una pipeline. Il parallelismo del modello della pipeline (o parallelismo della pipeline) divide gli strati del modello in fasi che possono essere elaborate in parallelo. Quando una fase completa il passaggio in avanti per un micro-batch, la memoria di attivazione viene comunicata alla fase successiva. Successivamente, quando la fase successiva completa la sua propagazione all’indietro, i gradienti vengono comunicati all’indietro.

Il pipelining viene solitamente utilizzato con DCN poiché ha requisiti di larghezza di banda inferiori e fornisce una parallelizzazione aggiuntiva. Questo va oltre la scala massima efficiente consentita dal modello e dal parallelismo dei dati. Detto questo, presenta due principali inconvenienti: incorre in un tempo di passaggio in cui i dispositivi sono inattivi e richiede una maggiore larghezza di banda della memoria a causa del ricaricamento dei pesi dalla memoria.

PaLM è in grado di aggirare del tutto queste limitazioni andando senza pipeline. I ricercatori hanno invece utilizzato una strategia diversa per ridimensionare PaLM 540B a 6144 chip. PaLM utilizza l’architettura client-server di Pathways per ottenere un parallelismo dei dati bidirezionale a livello di pod. Un singolo client Python invia metà del batch di addestramento a ciascun Pod. Quindi ogni Pod esegue il calcolo in avanti e all’indietro per calcolare i gradienti in parallelo utilizzando un modello all’interno del pod e il parallelismo dei dati. I pod trasferiscono i gradienti, che vengono calcolati sulla loro metà del batch, con il pod remoto. Ciascun Pod accumula quindi il gradiente locale e remoto e applica gli aggiornamenti dei parametri parallelamente per ottenere parametri bit a bit per il timestep successivo.


Questa strategia di parallelismo, insieme alla riformulazione del blocco Transformer (che consente di calcolare in parallelo i livelli di attenzione e feedforward), aiuta PaLM a raggiungere un’efficienza di formazione del 57,8% di utilizzo dei FLOP hardware, che secondo quanto riferito è il più alto raggiunto per i modelli di linguaggio di grandi dimensioni a questa scala.

Come sono stati addestrati gli altri modelli
“Si tratta di un aumento significativo della scala rispetto alla maggior parte dei precedenti LLM, che sono stati addestrati su un singolo pod TPU v3 (ad esempio, GLaM , LaMDA ), hanno utilizzato il parallelismo della pipeline per scalare a 2240 GPU A100 su cluster di GPU ( Megatron-Turing NLG ) o utilizzato più pod TPU v3 ( Gopher ) con una scala massima di 4096 chip TPU v3”, afferma il team dietro PaLM.


Megatron-Turing NLG (530 miliardi) è stato addestrato tramite un sistema parallelo 3D sviluppato grazie alla collaborazione tra NVIDIA Megatron-LM e Microsoft DeepSpeed. Questo sistema combinava dati, pipeline e parallelismo basato su tensore-slicing. I ricercatori, in questo caso, hanno combinato lo slicing del tensore e il parallelismo della pipeline per costruire un corpora di formazione del linguaggio naturale di alta qualità con centinaia di miliardi di token.

Parlando di modelli come GLaM e LaMDA, entrambi i modelli sono addestrati su un singolo Pod TPU-v3. Mentre serve il parametro 1.2T, il modello GLaM richiede 256 chip TPU-v3, LaMDA richiede di essere pre-addestrato su 1024 chip TPU-v3. Contrariamente a GLaM e LaMDA, il modello Gopher è addestrato su più pod TPU v3; un altro interesse, Gopher è stato addestrato utilizzando il parallelismo di modelli e dati all’interno dei pod TPU e il pipelining su di essi.

A parte la sua efficienza e prestazioni superiori, la bellezza di PaLM sta davvero nel modo in cui è stato addestrato, che gli consente di ottenere un punteggio superiore alla maggior parte dei modelli introdotti in precedenza. Modelli come GLaM , LaMDA , Gopher e Megatron-Turing NLG , hanno ottenuto risultati rapidi e all’avanguardia su molte attività ridimensionando le dimensioni del modello, utilizzando moduli scarsamente attivati ​​e formando su set di dati più grandi da fonti più diverse. Detto questo, non sono stati compiuti molti progressi nella comprensione delle capacità che emergono con l’apprendimento a colpo ridotto con una scala di modelli in crescita; PaLM si avvicina a una tale comprensione.

Di ihal