Il problema dei cambiamenti climatici di Deep Learning
Il cervello umano è una fonte di intelligenza incredibilmente efficiente. L’intelligenza artificiale di oggi non lo è.
All’inizio di questo mese, OpenAI ha annunciato di aver costruito il più grande modello di intelligenza artificiale della storia. Questo modello sorprendentemente grande, noto come GPT-3, è un risultato tecnico impressionante. Tuttavia evidenzia una tendenza preoccupante e dannosa nel campo dell’intelligenza artificiale, una tendenza che non ha ottenuto sufficiente attenzione da parte del pubblico.
I moderni modelli di intelligenza artificiale consumano un’enorme quantità di energia e questi requisiti energetici stanno crescendo a un ritmo mozzafiato. Nell’era del deep learning, le risorse computazionali necessarie per produrre un modello di intelligenza artificiale best-in-class sono raddoppiate in media ogni 3,4 mesi ; questo si traduce in un aumento di 300.000 volte tra il 2012 e il 2018. GPT-3 è solo l’ultima incarnazione di questa traiettoria esponenziale.
La linea di fondo: oggi l’IA ha un’impronta di carbonio significativa e se le tendenze del settore continuano, presto peggiorerà molto. A meno che non siamo disposti a rivalutare e riformare l’attuale agenda di ricerca sull’IA, il campo dell’intelligenza artificiale potrebbe diventare un antagonista nella lotta contro il cambiamento climatico negli anni a venire.
Nell’odierno paradigma di ricerca incentrato sull’apprendimento profondo, i progressi nell’intelligenza artificiale sono raggiunti principalmente attraverso una scala pura: set di dati più grandi, modelli più grandi, più calcolo.
Gli studenti universitari hanno bisogno di aiuto: ecco cosa puoi fare ora
GPT-3 illustra bene questo fenomeno. Il modello è costituito da ben 175 miliardi di parametri. Per mettere in prospettiva questa cifra, il suo modello precedente GPT-2 — che era stato considerato all’avanguardia quando è stato rilasciato lo scorso anno — aveva solo 1,5 miliardi di parametri. Mentre il GPT-2 dello scorso anno ha impiegato alcune decine di giorni di petaflop per allenarsi – già una grande quantità di input computazionali – GPT-3 ha richiesto diverse migliaia.
Il problema di affidarsi a modelli sempre più grandi per guidare i progressi nell’intelligenza artificiale è che la costruzione e l’implementazione di questi modelli comporta un’enorme quantità di dispendio energetico e quindi emissioni di carbonio.
In uno studio ampiamente discusso del 2019 , un gruppo di ricercatori guidati da Emma Strubell ha stimato che la formazione di un singolo modello di apprendimento profondo può generare fino a 626.155 libbre di emissioni di CO 2 , all’incirca pari all’impronta di carbonio totale della vita di cinque auto. Come punto di confronto, l’americano medio genera 36.156 libbre di emissioni di CO 2 in un anno.
A dire il vero, questa stima è per un modello particolarmente ad alta intensità energetica. La formazione di un modello di apprendimento automatico di medie dimensioni genera oggi una produzione di carbonio molto inferiore a 626.155 libbre.
Allo stesso tempo, vale la pena ricordare che quando questa analisi è stata condotta, GPT-2 era il modello più grande disponibile per lo studio ed è stato trattato dai ricercatori come un limite superiore alla dimensione del modello. Solo un anno dopo, GPT-2 sembra minuscolo, cento volte più piccolo, rispetto al suo successore.
Perché esattamente i modelli di apprendimento automatico consumano così tanta energia?
Il primo motivo è che i set di dati utilizzati per addestrare questi modelli continuano a crescere in dimensioni. Nel 2018, il modello BERT ha raggiunto le prestazioni NLP migliori della categoria dopo essere stato addestrato su un set di dati di 3 miliardi di parole. XLNet ha sovraperformato BERT sulla base di un set di formazione di 32 miliardi di parole. Poco dopo, GPT-2 è stato addestrato su un set di dati di 40 miliardi di parole. Rallentando tutti questi sforzi precedenti, è stato utilizzato un set di dati ponderato di circa 500 miliardi di parole per addestrare GPT-3.
Le reti neurali eseguono una lunga serie di operazioni matematiche (propagazione diretta e propagazione posteriore) per ogni dato che vengono alimentati durante l’allenamento, aggiornando i loro parametri in modi complessi. I set di dati più grandi si traducono quindi in crescenti requisiti di elaborazione e di energia.
Un altro fattore che guida l’enorme assorbimento di energia dell’IA è la vasta sperimentazione e messa a punto necessaria per sviluppare un modello. L’apprendimento automatico oggi rimane in gran parte un esercizio di tentativi ed errori. I professionisti spesso costruiranno centinaia di versioni di un determinato modello durante l’allenamento, sperimentando diverse architetture neurali e iperparametri prima di identificare un progetto ottimale.
Il documento del 2019 sopra menzionato include un case study esplicativo. I ricercatori hanno scelto un modello di dimensioni medie, molto più piccolo dei colossi che catturano i titoli come GPT-3, ed hanno esaminato non solo l’energia necessaria per addestrare la versione finale, ma il numero totale di prove che hanno portato alla produzione di quella versione finale.
Nel corso di sei mesi, sono state addestrate 4.789 diverse versioni del modello, richiedendo 9.998 giorni totali di tempo di GPU (oltre 27 anni). Tenendo conto di tutte queste prove, i ricercatori hanno stimato che la costruzione di questo modello ha generato complessivamente oltre 78.000 libbre di emissioni di CO 2 – più della media degli adulti americani produrrà in due anni.
A questo punto, la discussione ha affrontato solo la formazione di modelli di apprendimento automatico. Ma la formazione è solo l’inizio del ciclo di vita di un modello. Dopo che un modello è stato addestrato, viene quindi utilizzato nel mondo reale.
L’implementazione di modelli di intelligenza artificiale per agire in contesti del mondo reale, un processo noto come inferenza, consuma ancora più energia di quanto non faccia l’allenamento. In effetti, Nvidia stima che tra l’80% e il 90% del costo di una rete neurale sia inferenza piuttosto che formazione.
Ad esempio, considera l’IA alla base di un veicolo autonomo. Le reti neurali devono prima essere addestrate in anticipo per imparare a guidare. Una volta completato l’addestramento e distribuito il veicolo autonomo, il modello esegue quindi l’inferenza su base continua per navigare nel suo ambiente, senza sosta, giorno dopo giorno, per tutto il tempo in cui il veicolo è in uso.
Inutile dire che più parametri ha il modello, più ripidi sono i requisiti energetici per questa inferenza in corso.
Uso di energia ed emissioni di carbonio
Un presupposto alla base di questo argomento è la relazione tra il consumo di energia dell’IA e le emissioni di carbonio. Qual è il modo migliore di pensare a questa relazione?
Secondo l’EPA, un chilowattora di consumo energetico genera in media 0,954 libbre di emissioni di CO 2 negli Stati Uniti. Questa media riflette le diverse impronte di carbonio e le proporzioni relative delle diverse fonti di elettricità attraverso la rete energetica degli Stati Uniti (ad esempio, fonti rinnovabili, nucleare, gas naturale, carbone).
L’analisi di Strubell, menzionata sopra, applica questa media a livello statunitense al fine di calcolare le emissioni di carbonio di vari modelli di intelligenza artificiale in base al loro fabbisogno energetico. È un presupposto ragionevole. Il mix di fonti di alimentazione per Amazon Web Services, ad esempio, rispecchia all’incirca quello degli Stati Uniti nel loro insieme e la maggior parte dei modelli di intelligenza artificiale sono addestrati nel cloud.
Naturalmente, se un modello di intelligenza artificiale venisse addestrato utilizzando elettricità generata principalmente da fonti rinnovabili, la sua impronta di carbonio sarebbe di conseguenza inferiore. Ad esempio, il power mix di Google Cloud Platform è più pesantemente ponderato per le energie rinnovabili rispetto a quello di AWS (56% v. 17%, secondo il documento Strubell).
Oppure, per fare un altro esempio, un modello addestrato su hardware situato nel nord-ovest del Pacifico genererebbe una produzione di carbonio inferiore alla media nazionale a causa dell’abbondante energia idroelettrica pulita in quella regione . E vale la pena ricordare che ogni fornitore di servizi cloud promuove i suoi investimenti in compensazione del carbonio .
Tuttavia, considerato nel complesso, l’applicazione del mix di potenza USA globale come Strubell dovrebbe produrre un’approssimazione approssimativamente accurata delle impronte di carbonio dei modelli AI.
Rendimenti decrescenti
Il problema con l’inseguimento dei progressi nell’intelligenza artificiale attraverso modelli sempre più grandi è sottolineato dalla relazione tra dimensione del modello e prestazioni del modello. I dati qui sono chiari: gli aumenti delle dimensioni del modello alla fine mostrano rendimenti delle prestazioni nettamente decrescenti.
Un esempio illustrativo aiuterà a chiarire questo punto. ResNet era un noto modello di visione artificiale rilasciato nel 2015. Nel 2017 è emersa una migliore iterazione del modello, nota come ResNeXt. ResNeXt ha richiesto il 35% in più di risorse computazionali da addestrare rispetto a ResNet (misurato in base alle operazioni in virgola mobile) – e ha ottenuto un miglioramento dello 0,5% nella precisione.
Un articolo del 2019 dell’Allen Institute for AI fornisce dati dettagliati che documentano i rendimenti decrescenti delle dimensioni del modello in diverse attività, modelli e sottocampi AI. Il più recente mega-modello rilasciato, GPT-3, mostra chiari segni di rendimenti decrescenti rispetto a GPT-2.
Se la comunità dell’intelligenza artificiale continua lungo il suo percorso attuale, sarà necessario spendere quantità sempre maggiori di energia per costruire modelli sempre più grandi, al fine di ottenere miglioramenti incrementali sempre più piccoli delle prestazioni. Qualsiasi analisi costi / benefici diventa sempre più sproporzionata.
Dati questi rendimenti decrescenti, cosa motiva lo sviluppo continuo di modelli sempre più grandi? Uno dei motivi principali è l’attuale fissazione della comunità AI sul raggiungimento di risultati “all’avanguardia” sui benchmark delle prestazioni . Costruire un modello che stabilisca un nuovo record di accuratezza su un benchmark ben noto, anche se il miglioramento è solo una frazione del percento, può far guadagnare riconoscimento e consensi ai ricercatori.
Come UCLA professore Guy Van den Broeck ha messo : “Penso che la migliore analogia è con un certo paese ricco di petrolio in grado di costruire un grattacielo molto alto. Certo, un sacco di soldi e sforzi ingegneristici vanno nella costruzione di queste cose. E ottieni lo “stato dell’arte” nella costruzione di edifici alti. Ma … non c’è progresso scientifico di per sé. “
L’etica del “più grande è meglio” che attualmente domina l’agenda di ricerca sull’IA rischia di infliggere gravi danni ambientali negli anni a venire. Sono necessari cambiamenti ponderati e audaci per impostare il campo dell’intelligenza artificiale su una traiettoria più sostenibile e produttiva.
In attesa
Per iniziare, ci sono “vittorie rapide” a breve termine che ogni professionista dell’IA dovrebbe considerare per mitigare l’impatto del carbonio della propria ricerca.
Un primo passo importante è aumentare la trasparenza e la misurazione su questo tema. Quando i ricercatori dell’IA pubblicano risultati per nuovi modelli, dovrebbero includere, oltre alle metriche di prestazioni e precisione, i dati su quanta energia è stata spesa nello sviluppo del modello.
In un’analisi ponderata, il team dell’Allen Institute for AI ha proposto operazioni in virgola mobile come metrica di efficienza energetica più universale e utile che i ricercatori possano tenere traccia. Un altro gruppo ha creato un calcolatore delle emissioni di Maching Learning che i professionisti possono utilizzare per stimare le impronte di carbonio dei modelli che costruiscono (sulla base di fattori quali hardware, fornitore di cloud e area geografica).
Seguendo queste linee, dovrebbe diventare la migliore pratica per i ricercatori tracciare i costi energetici rispetto ai miglioramenti delle prestazioni durante la formazione dei modelli. La quantificazione esplicita di questo compromesso spingerà i ricercatori a prendere decisioni più informate ed equilibrate sull’allocazione delle risorse alla luce dei rendimenti decrescenti.
Si spera che, man mano che si diffondono pratiche di intelligenza artificiale sostenibili, la comunità inizierà a prendere in considerazione metriche di efficienza come queste nel valutare la ricerca sull’IA, proprio come accade oggi con le metriche prestazionali tradizionali come l’accuratezza: per invio di articoli per conferenze, opportunità di parola, ruoli accademici e così via .
Esistono altri frutti a bassa pendenza che possono aiutare a ridurre l’impronta di carbonio dell’IA a breve termine: utilizzare metodi di ricerca dell’iperparametro più efficienti, ridurre il numero di esperimenti non necessari durante l’allenamento, impiegando hardware più efficiente dal punto di vista energetico.
Ma da soli, queste azioni correttive non sono sufficienti per risolvere il problema. È necessario un cambiamento a lungo termine più fondamentale nel campo dell’intelligenza artificiale.
Dobbiamo fare un passo indietro e riconoscere che semplicemente costruire reti neurali sempre più grandi non è la strada giusta per l’intelligence generalizzata. Dai primi principi, dobbiamo spingerci a scoprire modi più eleganti ed efficienti per modellare l’intelligenza nelle macchine. La nostra continua battaglia con i cambiamenti climatici, e quindi il futuro del nostro pianeta, dipende da questo.
Per citare la leggenda dell’IA Geoff Hinton, il padrino dell’apprendimento profondo: “Il futuro dipende da uno studente laureato che è profondamente sospettoso di tutto ciò che ho detto …. La mia visione è buttare via tutto e ricominciare”.
La comunità dell’intelligenza artificiale deve iniziare a lavorare verso nuovi paradigmi nell’intelligenza artificiale che non richiedono set di dati in crescita esponenziale né spese di energia esageratamente vaste. Aree di ricerca emergenti come l’ apprendimento a scatti ravvicinati sono strade promettenti.
Il cervello umano – quella fonte originale di intelligenza – fornisce qui un’importante fonte d’ispirazione. Il nostro cervello è incredibilmente efficiente rispetto ai metodi di apprendimento profondo di oggi. Pesano qualche chilo e richiedono circa 20 watt di energia, appena sufficiente per alimentare una lampadina fioca. Eppure rappresentano la più potente forma di intelligenza nell’universo conosciuto.
“Cervelli umani possono fare cose incredibili con poco consumo di energia”, come AI ricercatore Siva Reddy metterlo . “La domanda è: come possiamo costruire tali macchine”.