Google introduce Pathways Language Model con 540 miliardi di parametri
PaLM raggiunge un’efficienza di formazione del 57,8% nell’utilizzo dei FLOP hardware, la più alta mai raggiunta per gli LLM su questa scala
 
Google AI aveva introdotto il Pathways Language Model (PaLM), un modello Transformer con solo decoder da 540 miliardi di parametri addestrato con il sistema Pathways utilizzato per addestrare un singolo modello su più pod TPU v4. I ricercatori hanno valutato PaLM su centinaia di attività di comprensione e generazione del linguaggio e hanno ottenuto prestazioni all’avanguardia nella maggior parte delle attività, con margini significativi in ​​molti casi.

PaLM raggiunge un’efficienza di formazione del 57,8% nell’utilizzo dei FLOP hardware, la più alta mai raggiunta per gli LLM su questa scala, grazie a una combinazione della strategia di parallelismo e a una riformulazione del blocco Transformer che consente di calcolare in parallelo i livelli di attenzione e feedforward, consentendo accelerazioni dalle ottimizzazioni del compilatore TPU.

PaLM è stato addestrato utilizzando una combinazione di set di dati in inglese e multilingue che includono documenti Web, libri, Wikipedia , conversazioni e codice GitHub di alta qualità . I ricercatori hanno anche creato un vocabolario “senza perdita di dati” che preserva tutti gli spazi bianchi (particolarmente importanti per il codice), divide i caratteri Unicode fuori dal vocabolario in byte e divide i numeri in singoli token, uno per ogni cifra.

PaLM ha mostrato capacità rivoluzionarie su numerosi compiti difficili. Quando è stato testato rispetto ad altri modelli linguistici, PaLM 540B ha superato le prestazioni in termini di comprensione e generazione della lingua quando è stato valutato su 29 attività di elaborazione del linguaggio naturale inglese (NLP) ampiamente utilizzate. Inoltre, PaLM ha dimostrato impressionanti capacità di comprensione del linguaggio naturale e di generazione in diverse attività BIG-bench.
PaLM ha mostrato capacità rivoluzionarie su attività di ragionamento che richiedono aritmetica in più fasi o ragionamento basato sul buon senso. I precedenti LLM, come Gopher , vedevano meno vantaggi dalla scala del modello nel miglioramento delle prestazioni.

Di ihal