Frenare il crescente fabbisogno energetico dell’apprendimento automatico
Alla luce della crescente preoccupazione per i requisiti energetici dei grandi modelli di machine learning , un recente studio del MIT Lincoln Laboratory e della Northeastern University ha studiato i risparmi che possono essere ottenuti dalle GPU power-capping impiegate nell’addestramento dei modelli e nell’inferenza, così come molti altri tecniche e metodi per ridurre il consumo di energia dell’IA.
Il nuovo lavoro richiede anche che i nuovi documenti sull’IA si concludano con una “Dichiarazione sull’energia” (simile alla recente tendenza per le dichiarazioni di “implicazione etica” nei documenti del settore della ricerca sull’apprendimento automatico).
Il suggerimento principale del lavoro è che il power-capping (limitando la potenza disponibile alla GPU che sta addestrando il modello) offre vantaggi in termini di risparmio energetico, in particolare per il Masked Language Modeling (MLM) e framework come BERT e i suoi derivati.
Reti di modellazione in tre lingue che operano a una percentuale delle impostazioni predefinite di 250 W (linea nera), in termini di consumo energetico. La limitazione del consumo energetico non limita l’efficienza o la precisione dell’allenamento su base 1-1 e offre risparmi energetici notevoli su vasta scala. Fonte: https://arxiv.org/pdf/2205.09646.pdf
Per i modelli su larga scala, che hanno catturato l’attenzione negli ultimi anni a causa di set di dati iperscalabili e nuovi modelli con miliardi o trilioni di parametri, è possibile ottenere risparmi simili come compromesso tra tempo di formazione e consumo di energia.
Addestrare modelli NLP più formidabili su larga scala con vincoli di potenza. Il tempo relativo medio sotto un limite di 150 W è mostrato in blu e il consumo energetico relativo medio per 150 W in arancione.
Per queste implementazioni su larga scala, i ricercatori hanno scoperto che un limite di 150 W all’utilizzo dell’energia ha ottenuto una riduzione media del 13,7% del consumo energetico rispetto al massimo predefinito di 250 W, nonché un aumento relativamente piccolo del 6,8% del tempo di allenamento.
Inoltre, i ricercatori osservano che, nonostante i titoli dei giornali che il costo della formazione dei modelli ha raccolto negli ultimi anni, i costi energetici dell’utilizzo effettivo dei modelli addestrati sono molto più elevati *.
“Per la modellazione del linguaggio con BERT, i guadagni di energia attraverso il power-capping sono notevolmente maggiori durante l’esecuzione dell’inferenza rispetto all’allenamento. Se ciò è coerente per altre applicazioni di intelligenza artificiale, ciò potrebbe avere ramificazioni significative in termini di consumo di energia per piattaforme di cloud computing o su larga scala che servono applicazioni di inferenza per la ricerca e l’industria.’
Inoltre, e forse il più controverso, il documento suggerisce che la formazione principale dei modelli di apprendimento automatico sia relegata ai mesi più freddi dell’anno e alla notte, per risparmiare sui costi di raffreddamento.
Sopra, le statistiche PUE per ogni giorno del 2020 nel data center degli autori, con un picco/plateau notevole e sostenuto nei mesi estivi. Di seguito, la variazione oraria media del PUE per la stessa posizione nel corso di una settimana, con il consumo di energia in aumento verso la metà della giornata, poiché sia l’hardware di raffreddamento della GPU interna che il raffreddamento del data center ambientale faticano a mantenere una temperatura accettabile.
Gli autori affermano:
“Evidentemente, i carichi di lavoro pesanti della NLP sono in genere molto meno efficienti in estate rispetto a quelli eseguiti durante l’inverno. Data la grande variazione stagionale, se ci sono esperimenti computazionalmente costosi che possono essere programmati per mesi più freddi, questa tempistica può ridurre significativamente l’impronta di carbonio.’
Il documento riconosce anche le possibilità emergenti di risparmio energetico che sono possibili attraverso la potatura e l’ottimizzazione dell’architettura del modello e dei flussi di lavoro, sebbene gli autori lascino l’ulteriore sviluppo di questa strada ad altre iniziative.
Infine, gli autori suggeriscono che i nuovi articoli scientifici del settore dell’apprendimento automatico siano incoraggiati, o forse vincolati, per chiudere con una dichiarazione che dichiari il consumo energetico del lavoro svolto nella ricerca e le potenziali implicazioni energetiche dell’adozione di iniziative suggerite nel lavoro .
Il documento, dando l’esempio, spiega le implicazioni energetiche della propria ricerca.
Il documento è intitolato Great Power, Great Responsibility: Recommendations for Reducing Energy for Training Language Models e proviene da sei ricercatori del MIT Lincoln e Northeastern.
L’incombente presa di energia di Machine Learning
Poiché le richieste computazionali per i modelli di apprendimento automatico sono aumentate di pari passo con l’utilità dei risultati, l’attuale cultura del ML identifica il dispendio energetico con prestazioni migliorate, nonostante alcuni importanti attivisti, come Andrew Ng , suggeriscono che la cura dei dati potrebbe essere più importante fattore .
In una collaborazione chiave del MIT del 2020, è stato stimato che un miglioramento di dieci volte delle prestazioni del modello comporta un aumento di 10.000 volte dei requisiti di calcolo, insieme a una corrispondente quantità di energia.
Di conseguenza, negli ultimi anni è aumentata la ricerca su una formazione ML efficace e meno dispendiosa in termini di energia. Il nuovo documento, affermano gli autori, è il primo a dare uno sguardo approfondito all’effetto dei power cap sull’addestramento e sull’inferenza dell’apprendimento automatico, con un’enfasi sui framework NLP (come la serie GPT).
Poiché la qualità dell’inferenza è una preoccupazione fondamentale, gli autori dichiarano le loro scoperte all’inizio:
‘[Questo] metodo non influisce sulle previsioni dei modelli addestrati o, di conseguenza, sulla loro accuratezza delle prestazioni sui compiti. Cioè, se due reti con la stessa struttura, valori iniziali e dati in batch vengono addestrate per lo stesso numero di batch con diversi power-cap, i loro parametri risultanti saranno identici e solo l’energia necessaria per produrli potrebbe differire.’
Ridurre il potere per la PNL
Per valutare l’impatto dei power-cap sull’addestramento e sull’inferenza, gli autori hanno utilizzato l’ utilità della riga di comando nvidia-smi (System Management Interface), insieme a una libreria MLM di HuggingFace.
Gli autori hanno addestrato i modelli di elaborazione del linguaggio naturale BERT , DistilBERT e Big Bird su MLM e hanno monitorato il loro consumo energetico durante la formazione e l’implementazione.
I modelli sono stati addestrati rispetto al set di dati WikiText-103 di DeepAI per 4 epoche in lotti di otto, su 16 GPU V100, con quattro diversi limiti di potenza: 100 W, 150 W, 200 W e 250 W (l’impostazione predefinita, o base, per una GPU NVIDIA V100) . I modelli presentavano parametri addestrati in base a zero e valori di init casuali, per garantire valutazioni di formazione comparabili.
Come si vede nella prima immagine sopra, i risultati dimostrano un buon risparmio energetico con incrementi non lineari e favorevoli del tempo di allenamento. Gli autori affermano:
“I nostri esperimenti indicano che l’implementazione di limiti di potenza può ridurre significativamente il consumo di energia a scapito del tempo di formazione.”
Dimagrire la “Grande PNL”
Successivamente gli autori hanno applicato lo stesso metodo a uno scenario più impegnativo: addestrare BERT con MLM su configurazioni distribuite su più GPU, un caso d’uso più tipico per modelli FAANG NLP ben finanziati e ben pubblicizzati.
La differenza principale in questo esperimento era che un modello poteva utilizzare da 2 a 400 GPU per istanza di training. Sono stati applicati gli stessi vincoli per il consumo di energia e la stessa attività utilizzata (WikiText-103). Vedi la seconda immagine sopra per i grafici dei risultati.
Il documento afferma:
‘In media per ciascuna scelta di configurazione, un limite di 150 W sull’utilizzo dell’energia ha portato a una riduzione media del 13,7% del consumo di energia e un aumento del 6,8% del tempo di allenamento rispetto al massimo predefinito. [L’impostazione] 100 W ha tempi di allenamento significativamente più lunghi (in media il 31,4% in più). Un limite di 200 W corrisponde quasi allo stesso tempo di allenamento di un limite di 250 W, ma con un risparmio energetico più modesto rispetto a un limite di 150 W.’
Gli autori suggeriscono che questi risultati supportano il power-capping a 150 W per le architetture GPU e le applicazioni che funzionano su di esse. Notano inoltre che i risparmi energetici ottenuti si traducono in tutte le piattaforme hardware ed hanno eseguito nuovamente i test per confrontare i risultati per le GPU NVIDIA K80, T4 e A100.
Risparmio ottenuto su tre diverse GPU NVIDIA.
L’inferenza, non l’allenamento, mangia il potere
L’articolo cita diversi studi precedenti che dimostrano che, nonostante i titoli, è l’inferenza (l’uso di un modello finito, come un modello NLP) e non l’allenamento che assorbe la maggiore quantità di potere, suggerendo che i modelli popolari sono mercificati ed entrano nel mainstream, il consumo di energia potrebbe diventare un problema più grande di quanto non lo sia attualmente in questa fase più nascente dello sviluppo della PNL.
Pertanto i ricercatori hanno misurato l’impatto dell’inferenza sul consumo di energia, scoprendo che l’imposizione di limiti di potenza ha un effetto notevole sulla latenza dell’inferenza:
‘Rispetto a 250 W, un’impostazione da 100 W richiedeva il doppio del tempo di inferenza (un aumento del 114%) e consumava l’11,0% in meno di energia, 150 W richiedeva il 22,7% in più di tempo e risparmiava il 24,2% di energia e 200 W richiedeva l’8,2% in più di tempo con il 12,0% in meno energia.’
Allenamento invernale
Il documento suggerisce che la formazione (se non l’inferenza, per ovvi motivi) potrebbe essere programmata nei momenti in cui il data center è al massimo dell’efficacia di utilizzo dell’energia (PUE), in effetti, in inverno e di notte.
‘Si possono ottenere risparmi energetici significativi se i carichi di lavoro possono essere programmati nei momenti in cui è previsto un PUE inferiore. Ad esempio, spostare un lavoro di breve durata dal giorno alla notte può fornire una riduzione di circa il 10% e spostare un lavoro più lungo e costoso (ad esempio un modello linguistico che richiede settimane per essere completato) dall’estate all’inverno può comportare una riduzione del 33%.
“Sebbene sia difficile prevedere i risparmi che un singolo ricercatore può ottenere, le informazioni qui presentate evidenziano l’importanza dei fattori ambientali che incidono sull’energia complessiva consumata dai loro carichi di lavoro.”
Tienilo nuvoloso
Infine, il documento osserva che è improbabile che le risorse di elaborazione locali abbiano implementato le stesse misure di efficienza dei principali data center e degli attori di cloud computing di alto livello e che si potrebbero ottenere vantaggi ambientali trasferendo i carichi di lavoro in località che hanno investito molto in un buon PUE.
‘Sebbene sia conveniente disporre di risorse informatiche private accessibili, questa comodità ha un costo. In generale, il risparmio energetico e l’impatto sono più facilmente ottenibili su scale più grandi. Datacenter e fornitori di cloud computing fanno investimenti significativi nell’efficienza delle loro strutture.’