Google imposta la barra per i modelli linguistici AI con PaLM

 
Il nuovo Large Language Model (LLM) di Google chiamato PaLM (Pathways Language Model) è il primo risultato di Pathways, la nuova architettura AI di Google, che mira a gestire molte attività contemporaneamente, apprendere nuove attività rapidamente e riflettere una migliore comprensione del mondo.

PaLM è un’impresa imponente con obiettivi ambiziosi. Sebbene molti aspetti di PaLM richiedano un’ulteriore valutazione, rappresenta un importante passo avanti per gli LLM. Il processo di sviluppo e valutazione di PaLM è dettagliato in una  pubblicazione arXiv  e riassunto da Google in un  post sul blog . 


Sotto il cofano LLM
La pubblicazione di Google delinea la filosofia di  Pathways  in ogni fase del processo di formazione PaLM. Le versioni della nuova architettura includono PaLM 8B con 8 miliardi di parametri, PaLM 62B con 62 miliardi di parametri e PaLM 540B con 540 miliardi di parametri. Google ha creato diverse versioni per valutare la funzione costo-valore così come i vantaggi di scala.
Il numero di parametri è importante negli LLM, sebbene più parametri non si traducano necessariamente in un modello con prestazioni migliori. PaLM 540B è nella stessa lega di alcuni dei più grandi  LLM  disponibili per quanto riguarda il numero di parametri: GPT-3 di OpenAI con 175 miliardi, Gopher e Chinchilla di DeepMind con 280 miliardi e 70 miliardi, GLaM e LaMDA di Google con 1,2 trilioni e 137 miliardi e  Microsoft – Megatron – Turing NLG di Nvidia  con 530 miliardi.

La prima cosa da considerare quando si parla di LLM, come qualsiasi altro modello di intelligenza artificiale, è l’efficienza del processo di formazione. Anche i Google di tutto il mondo devono rispondere a questa domanda: “Data una certa quantità di calcolo, quanto grande di un modello dovrei addestrare per ottenere le migliori prestazioni possibili?”

Nel  2020, OpenAI ha proposto  leggi di ridimensionamento per guidare la formazione degli LLM. Nel 2022, DeepMind ha pubblicato un documento,  “Training Compute-Optimal Large Language Models”,  in cui  gli analisti affermano  che la formazione degli LLM è stata eseguita con un uso del calcolo profondamente non ottimale. Indipendentemente, Google è giunto a conclusioni simili, come dettagliato nella documentazione di PaLM.

La formazione di PaLM è lo stato dell’arte a molti livelli. A livello hardware, PaLM 540B è stato addestrato su due pod TPU v4 collegati su una rete di data center (DCN) utilizzando una combinazione di modello e parallelismo dei dati. Google ha utilizzato 3.072  chip TPU v4  in ciascun Pod collegato a 768 host, che rileva essere la configurazione TPU più grande descritta fino ad oggi. Ciò ha consentito a Google di scalare in modo efficiente la formazione a 6.144 chip, raggiungendo un’efficienza di formazione del 57,8% di utilizzo dei FLOP hardware, che secondo Google è la più alta mai raggiunta per gli LLM su questa scala.
PaLM utilizza  un’architettura del modello Transformer standard , con alcune personalizzazioni. Transformer è l’architettura utilizzata da tutti gli LLM e sebbene PaLM si discosti da essa in qualche modo, ciò che è probabilmente più importante è il focus del set di dati di addestramento utilizzato.

Come addestrare il tuo LLM
Il set di dati utilizzato per addestrare PaLM è una combinazione di pagine Web multilingue filtrate (27%), libri in inglese (13%), articoli di Wikipedia multilingue (4%), articoli di notizie in inglese (1%), codice sorgente GitHub (5%) e conversazioni sui social media multilingue (50%). Questo set di dati si basa su quelli utilizzati per addestrare LaMDA e GLaM. Ci sono alcune cose che vale la pena evidenziare qui.

Innanzitutto, vale la pena chiedersi se la selezione delle fonti riflette gli obiettivi di Google. Le conversazioni sui social media sono di gran lunga la fonte più diffusa e mentre le pagine web sono state selezionate tenendo conto dei punteggi di qualità assegnati, non sembra essere il caso delle conversazioni sui social media.

Le pagine Web incluse nel set di dati di formazione sono state filtrate utilizzando un classificatore per valutare la qualità, con l’obiettivo di limitare la tossicità dei contenuti e includere contenuti scritti in modo professionale. Tuttavia, osserva Google, ciò potrebbe aver escluso in modo sproporzionato il linguaggio casuale,  il cambio di codice  (o gli aggiustamenti comportamentali nelle azioni o nel parlato) o la diversità dialettale e potrebbe limitare la capacità di PaLM di modellare i dialetti non dominanti nelle regioni di lingua inglese a livello globale.
Ipotizziamo che i punteggi di qualità possano essere più difficili da assegnare alle conversazioni sui social media. Il documento sostiene inoltre che, affinché PaLM sia in grado di identificare la tossicità come parte della sua applicabilità generale, è necessaria l’esposizione ad essa.

In secondo luogo, anche se vengono citate fonti multilingue, in realtà sono ancora dominate dalla lingua inglese. Quasi il 78% di tutte le fonti sono inglesi, con fonti tedesche e francesi al 3,5% e 3,2% e tutte le altre fonti sono molto indietro.

Google osserva che le capacità linguistiche di PaLM sono probabilmente limitate dai limiti della lingua presenti nei dati di formazione e nei benchmark di valutazione. Allo stesso tempo, PaLM offre straordinarie  capacità multilingue  sui benchmark valutati da Google, la maggior parte dei quali sono in lingua inglese.

Le variazioni di PaLM sono state addestrate utilizzando approcci one-pass o pochi-pass, il che significa che la maggior parte dei dati nel set di dati di addestramento è stata elaborata come input il minor numero di volte possibile. Questo fa parte della scommessa sull’efficienza per PaLM, ma ha anche avuto un altro effetto collaterale interessante: ha comportato una memorizzazione molto ridotta, il che significa che l’output di PaLM è per la maggior parte calcolato, non recitato.

Fare di più con meno, ma per cosa?
La visione di Google per Pathways è di “consentire a un unico sistema di intelligenza artificiale di generalizzare su migliaia o milioni di attività, di comprendere diversi tipi di dati e di farlo con notevole efficienza”. Il PaLM può essere un importante passo avanti per quanto riguarda l’efficienza, ma per quanto riguarda i suoi livelli di prestazioni?
Google afferma che PaLM mostra capacità rivoluzionarie su numerose attività difficili. Nel suo post sul blog, vengono evidenziati esempi per la comprensione e la generazione del linguaggio, il ragionamento e le attività relative al codice.

Nella comprensione della lingua, PaLM è stato valutato su 29 attività di elaborazione del linguaggio naturale inglese (NLP) ampiamente utilizzate. PaLM 540B ha superato le prestazioni in pochi colpi dei precedenti LLM in 28 su 29 attività. Oltre alle attività di PNL in inglese, PaLM mostra anche ottime prestazioni sui benchmark PNL multilingue, inclusa la traduzione, anche se solo il 22% del corpus di formazione non è inglese.

La performance di PaLM è stata anche confrontata con quella di  Gopher  e  Chinchilla  utilizzando il nuovo  Beyond the Imitation Game Benchmark  (BIG-bench). I risultati dimostrano straordinarie capacità di comprensione e generazione del linguaggio naturale su attività come distinguere causa ed effetto, comprendere combinazioni concettuali in contesti appropriati e persino indovinare un film da una  combinazione di emoji .

Da notare qui il fatto che il PaLM 540B a cinque colpi ha prestazioni migliori rispetto al risultato medio di individui a cui è stato chiesto di risolvere gli stessi compiti. Google rileva inoltre che le prestazioni di PaLM suggeriscono che i miglioramenti delle prestazioni su scala non si sono ancora stabilizzati.

Per quanto riguarda il ragionamento, le prestazioni di PaLM sono state valutate in compiti che richiedono aritmetica multifase o  ragionamento di buon senso . L’esempio evidenziato da Google è la capacità di PaLM di risolvere il 58% dei problemi in  GSM8K , un benchmark di migliaia di impegnative domande di matematica a livello di scuola elementare.
PaLM supera il  punteggio massimo precedente  del 55% ottenuto perfezionando  GPT-3  con un set di formazione di 7.500 problemi e combinandolo con un calcolatore e un verificatore esterni. Questo nuovo punteggio si avvicina anche alla media del 60% dei problemi risolti dai bambini di età compresa tra 9 e 12 anni, il pubblico di destinazione per il set di domande.

I risultati di Google per PaLM 540B mostrano prestazioni eccellenti tra attività di codifica e attività in linguaggio naturale in un unico modello, anche se ha solo il 5% di codice nel set di dati di pre-formazione. Google osserva che le prestazioni a scatti di PaLM sono particolarmente notevoli perché sono alla pari con il  Codex ottimizzato  mentre utilizza 50 volte meno  codice Python  per l’addestramento.

Per riassumere, sembra che PaLM possa fare di più con meno, ovvero ottenere prestazioni paragonabili o migliori agli LLM all’avanguardia esistenti, pur richiedendo meno risorse e meno personalizzazione di quanto non facciano.

Puntare più in alto con l’etica dell’IA e l’intelligenza a livello umano
Il fatto che si tratti di un’impresa gigantesca è chiaro dalla pubblicazione di Google che descrive in dettaglio la nuova tecnologia. Le sue dimensioni, il livello di dettaglio e la menzione di un team di quasi 70 professionisti coinvolti nello sforzo la dicono lunga.

Google include anche sezioni su “Analisi del pregiudizio rappresentativo” e “Considerazioni etiche” nella sua pubblicazione. Viene promossa l’ analisi e la documentazione dei potenziali rischi indesiderati attraverso artefatti trasparenti come  schede modello  e schede tecniche, che includono anche informazioni sull’uso previsto e sui test.
È difficile offrire previsioni su cosa significhi tutto ciò a livello pratico per il resto del mondo a questo punto. Essere in grado di creare LLM in modo più efficiente è una buona cosa, nella misura in cui vengono creati. 

Tuttavia, a questo punto non siamo a conoscenza di piani per condividere PaLM e l’infrastruttura TPU utilizzata per addestrarlo è specifica di Google. Ciò significa che il trasferimento di know-how e tecniche ad altri costruttori di LLM potrebbe non essere direttamente applicabile.

Contrariamente a GPT-3, che è disponibile in commercio da OpenAI  insieme a Microsoft tramite un’API, non siamo a conoscenza di programmi o piani simili per GLaM, LaMDA e PaLM di Google. BERT di Google, uno dei primi LLM, è open source e ha dato vita a molte varianti, oltre ad alimentare l’ultima incarnazione di Ricerca Google . Possiamo ipotizzare che alla fine anche il PaLM possa arrivarci.

Per quanto riguarda l’obiettivo dell’intelligenza a livello umano, le  opinioni variano . Google osserva nella sua pubblicazione che i miglioramenti delle prestazioni su larga scala non si sono ancora stabilizzati. In altre aree in cui viene applicato il deep learning, tuttavia, sembra essere stato raggiunto un plateau nelle prestazioni.

Di recente, Blaise Aguera y Arcas, il capo del gruppo AI di Google a Seattle, ha affermato che “le statistiche valgono per la comprensione”,  citando alcuni scambi con LaMDA come prova. Non ci volle molto perché i critici sottolineassero i punti deboli  di tale affermazione. Semmai, ci aspettiamo che PaLM alimenterà il dibattito in corso tra i professionisti dell’IA e i responsabili delle decisioni tecniche.

Di ihal