Come addestrare il calcolo di modelli linguistici di grandi dimensioni ottimali?
Una nuova ricerca di DeepMind tenta di studiare la dimensione ottimale del modello e il numero di token per l’addestramento di un modello di linguaggio del trasformatore con un determinato budget di calcolo.

Una nuova ricerca di DeepMind tenta di studiare la dimensione ottimale del modello e il numero di token per l’addestramento di un modello di linguaggio del trasformatore con un determinato budget di calcolo. Il team ha addestrato oltre 400 modelli linguistici che vanno da 70 milioni a 16 miliardi di parametri su 5-500 miliardi di token. Il team ha scoperto che per calcolare l’allenamento ottimale, la dimensione del modello e il numero di token di addestramento dovrebbero essere ridimensionati in modo uguale. Ciò significa che il raddoppio delle dimensioni del modello dovrebbe essere accompagnato dal raddoppio dei token di addestramento.

Nascita di grandi modelli linguistici
Questa è davvero l’era dei grandi modelli linguistici . Quando il modello GPT-3 è stato introdotto, ha catturato la fantasia del mondo della ricerca: 175 miliardi di parametri erano sconosciuti. Sono passati due anni dalla sua introduzione e in questo periodo sono stati lanciati diversi modelli , ognuno più grande del precedente. I grandi trasformatori autoregressivi mostrano prestazioni impressionanti su molte attività utilizzando vari protocolli di valutazione come zero, pochi colpi e messa a punto.

Queste prestazioni impressionanti vengono a scapito di enormi requisiti di calcolo ed energia. Questo è stato oggetto di molti dibattiti. Le implicazioni negative di modelli così grandi sono state sollevate più e più volte; un esempio popolare è il ricercatore di intelligenza artificiale Timnit Gebru che è stato espulso da Google presumibilmente a causa di un articolo di cui è coautrice, che parlava dello svantaggio di costruire, mantenere e addestrare modelli così enormi.

La ricerca
Il budget di calcolo della formazione viene spesso calcolato in anticipo. Poiché è possibile addestrare questi modelli di grandi dimensioni non più di una volta, diventa molto critico stimare con precisione i migliori iperparametri del modello per un determinato budget di calcolo. In passato, è stato dimostrato che esiste una relazione potere-legge tra il numero di parametri e le prestazioni di un modello linguistico autoregressivo. 

Uno studio precedente ha mostrato che i modelli di grandi dimensioni non dovrebbero essere addestrati alla loro perdita più bassa possibile per essere calcolati in modo ottimale. Sebbene i ricercatori di DeepMind abbiano concluso lo stesso nel loro recente studio, stimano anche che i modelli di grandi dimensioni debbano essere addestrati per molti token di formazione rispetto a quanto raccomandato in precedenza. Lo studio precedente ha mostrato che per un aumento di dieci volte del budget computazionale, la dimensione del modello dovrebbe aumentare di 5,5 volte e il numero di token di addestramento deve aumentare di 1,8 volte. Tuttavia, lo studio DeepMind mostra che le dimensioni del modello e il numero di token di formazione dovrebbero essere ridimensionati in proporzioni uguali.

Sulla base della stima della frontiera dell’ottimizzazione del calcolo, i ricercatori di DeepMind hanno previsto che per addestrare Gopher (280 miliardi di modelli di linguaggio parametrico), un modello ottimale dovrebbe essere quattro volte più piccolo e dovrebbe essere addestrato su quattro volte più token. Ciò è stato verificato addestrando un modello da 70 miliardi di calcolo ottimale chiamato Chinchilla su 1,4 trilioni di token. I ricercatori potrebbero dimostrare che Chincilla ha superato la sua controparte più grande, Gopher, e ha anche ridotto considerevolmente il costo dell’inferenza (a causa delle dimensioni ridotte del modello), il che facilita gli usi a valle su hardware più piccolo. I vantaggi di un modello più piccolo addestrato in modo ottimale si estendono oltre i vantaggi immediati delle sue prestazioni migliorate.

Necessità di set di dati di qualità
La ricerca di DeepMind richiede una maggiore attenzione sul ridimensionamento del set di dati, che a sua volta è vantaggioso solo quando i dati sono di alta qualità. “Set di dati più grandi richiederanno un’attenzione particolare per garantire che la sovrapposizione dei set di test del treno sia adeguatamente considerata, sia nella perdita di modelli linguistici, ma anche con le attività a valle”, hanno scritto gli autori.

Oltre a questo, la comunità di ricerca deve anche tenere conto delle preoccupazioni etiche e di privacy associate a modelli così grandi. Come osservato in passato, i grandi set di dati raccolti dal web contengono linguaggio tossico, pregiudizi e altre informazioni private. Una migliore comprensione delle prestazioni del modello linguistico di grandi dimensioni e della sua interazione è un’importante area di ricerca futura.

Di ihal