David vs. Golia: Chinchilla se la cava bene contro il PaLM di Google AI?
L’affermazione di DeepMind secondo cui i modelli linguistici di grandi dimensioni venivano addestrati con un uso non ottimale del calcolo è stata anche verificata in modo indipendente in seguito dalla ricerca di Google AI.

Nel 2020, OpenAI ha pubblicato uno studio intitolato “Scaling Laws for Neural Language Models” che ha dimostrato come l’aumento delle dimensioni del modello abbia comportato un miglioramento delle prestazioni. È stato scoperto che i modelli più grandi erano molto più efficienti in termini di campionamento, quindi un training ottimale per l’efficienza del calcolo significava addestrare modelli di grandi dimensioni su una quantità relativamente piccola di dati e fermarsi prima della convergenza. Nel recente passato, tutte le importanti aziende tecnologiche hanno aperto la strada alla creazione di modelli linguistici più grandi e di grandi dimensioni. La tendenza del modello di linguaggio di grandi dimensioni è culminata con modelli densi come GPT-3 , che ha 175 miliardi di parametri, LaMDA , che ha 137 miliardi di parametri e Megatron-Turing NLG, che ha 530 miliardi di parametri. 

Modelli più piccoli, più gettoni di formazione
Per contrastare questo punto di vista, DeepMind ha presentato un documento intitolato “Training Compute-Optimal Large Language Models” verso la fine di marzo, che ha dimostrato che invece di fare affidamento solo sulla dimensione del modello, anche il numero di token di formazione dovrebbe aumentare. Il documento rileva che di solito, quando il budget computazionale aumenta di dieci volte, la dimensione del modello viene aumentata di 5,5 volte mentre il numero di token di addestramento viene ridimensionato di 1,8 volte. Tuttavia, lo studio suggerisce che la dimensione del modello e il numero di token di formazione dovrebbero aumentare proporzionalmente. 

Questa teoria è stata testata su un modello di calcolo ottimale previsto Chinchilla . Lo studio ha confrontato il modello di 70 miliardi di parametri di Chinchilla con il modello di 280 miliardi di Gopher. Nonostante le dimensioni ridotte, Chinchilla è stato addestrato su quattro volte più dati e ha superato Gopher con un’accuratezza media all’avanguardia del 67,5% sul benchmark MMLU, che è del 7% superiore. 

I modelli linguistici di grandi dimensioni di norma mantengono il numero di token di formazione fisso a circa 300 miliardi. È interessante notare che, mentre il costo sostenuto per addestrare Gopher e Chinchilla era lo stesso, Chinchilla è stato addestrato con 1,3 trilioni di token. 

Anche l’affermazione di DeepMind secondo cui i modelli linguistici di grandi dimensioni venivano addestrati con un uso non ottimale del calcolo è stata verificata in modo indipendente dalla ricerca di Google AI. All’inizio del mese, il team di ricerca di Google AI ha annunciato una nuova architettura chiamata PaLM o Pathways Language Model, un modello di trasformatore con solo decoder da 540 miliardi di parametri. Google ha affermato nei suoi risultati che PaLM si è comportato molto bene nelle attività della PNL inglese come il completamento di frasi, la comprensione e l’inferenza del linguaggio naturale, nonché nelle attività della PNL multilingue come la traduzione. Il blog affermava che la visione di Pathways era che un singolo sistema di intelligenza artificiale fosse in grado di generalizzare su migliaia di attività con efficienza. 

Per inciso, PaLM è stato addestrato su 768 miliardi di token, molto meno di Chinchilla ma ha utilizzato cinque volte il budget di calcolo richiesto da Chinchilla. PaLM è stato formato su una combinazione di dati e parallelismo del modello. A livello di Pod, il modello è stato addestrato su due Pod Cloud TPU v4. Questa formazione all’avanguardia ha raggiunto un’efficienza di formazione del 57,8% sull’utilizzo dei FLOP hardware, che è la massima efficienza per gli LLM su questa scala.  

 

Conclusione
PaLM è stato testato su una serie di attività NLP insieme a vecchi modelli di grandi dimensioni come Chinchilla, GLaM, GPT-3, Megatron-Turing NLG e Gopher. Delle 29 attività che includevano il completamento di frasi, domande-risposta, comprensione della lettura e attività di ragionamento di buon senso, PaLM ha superato tutti gli altri modelli in 28 attività. PaLM è stato anche confrontato con altri LLM su una gamma di 150 nuove attività di modellazione del linguaggio note come Beyond the Imitation Game Benchmark (BIG-bench). 

Mentre Chinchilla e PaLM sono stati addestrati su diversi corpora, il modello da 540 miliardi di PaLM ha funzionato bene in una serie di attività, inclusa la codifica, dove era alla pari con il Codex 12B ottimizzato di OpenAI nonostante fosse stato addestrato su codice Python 50 volte inferiore . Al ragionamento, PaLM è stato in grado di risolvere il 58% dei problemi in GSM8K , un set di dati di riferimento di difficili domande di matematica a livello scolastico. Il modello ha battuto il precedente miglior punteggio stabilito dal 55% di GPT-3. 

PaLM è stato impostato contro Chinchilla e Gopher in un sottoinsieme di 58 di questi compiti. Ancora una volta, PaLM è emerso in cima. Lo studio ha anche scoperto che le prestazioni di PaLM come “funzione di scala” seguono un comportamento log-lineare simile ai modelli precedenti. Ciò ha segnalato che l’aumento delle prestazioni di scala non aveva ancora raggiunto un plateau. 


DeepMind ha successivamente ammesso che, nonostante PaLM non sia ottimale per il calcolo, avrebbe battuto Chinchilla se addestrato sui loro dati. Ha anche previsto che, dato il budget di calcolo più ampio di PaLM, un modello di parametri da 140 miliardi addestrato su 3 trilioni di token avrebbe fornito prestazioni ottimali e sarebbe stato più efficiente per l’inferenza.

Di ihal