Algoritmi migliorati possono essere più importanti per le prestazioni dell’IA rispetto a un hardware più veloce
Quando si tratta di intelligenza artificiale, le innovazioni algoritmiche sono sostanzialmente più importanti dell’hardware, almeno laddove i problemi coinvolgono da miliardi a trilioni di punti dati. Questa è la conclusione di un team di scienziati del Computer Science and Artificial Intelligence Laboratory (CSAIL) del MIT, che ha condotto quello che sostengono sia il primo studio sulla velocità con cui gli algoritmi stanno migliorando attraverso un’ampia gamma di esempi.
Gli algoritmi dicono al software come dare un senso ai dati testuali, visivi e audio in modo che possano, a loro volta, trarne deduzioni. Ad esempio, il GPT-3 di OpenAI è stato addestrato su pagine Web, ebook e altri documenti per imparare a scrivere documenti in modo umano. Più efficiente è l’algoritmo, meno lavoro deve fare il software. E poiché gli algoritmi vengono migliorati, in teoria dovrebbe essere necessaria meno potenza di calcolo. Ma questa non è scienza consolidata. Le startup infrastrutturali e di ricerca sull’intelligenza artificiale come OpenAI e Cerberus scommettono che gli algoritmi dovranno aumentare sostanzialmente di dimensioni per raggiungere livelli più elevati di sofisticazione.
Il team CSAIL, guidato dal ricercatore del MIT Neil Thompson, che in precedenza era stato coautore di un articolo che mostrava che gli algoritmi si stavano avvicinando ai limiti dell’hardware informatico moderno, ha analizzato i dati di 57 libri di testo di informatica e più di 1.110 articoli di ricerca per tracciare la storia di dove gli algoritmi sono migliorati . In totale, hanno esaminato 113 “famiglie di algoritmi”, o insiemi di algoritmi che risolvevano lo stesso problema, che era stato evidenziato come il più importante dai libri di testo.
Il team ha ricostruito la storia del 113, tracciando ogni volta che veniva proposto un nuovo algoritmo per un problema e prendendo nota di quelli che erano più efficienti. A partire dagli anni ’40 ad oggi, il team ha trovato una media di otto algoritmi per famiglia di cui una coppia ha migliorato l’efficienza.
Per problemi di calcolo di grandi dimensioni, il 43% delle famiglie di algoritmi ha avuto miglioramenti di anno in anno pari o superiori ai vantaggi della legge di Moore, il principio secondo cui la velocità dei computer raddoppia all’incirca ogni due anni. Nel 14% dei problemi, i miglioramenti delle prestazioni hanno superato di gran lunga quelli derivanti da hardware migliorato, con i guadagni derivanti da algoritmi migliori che sono particolarmente significativi per i problemi relativi ai big data.
Evidenze crescenti
Il nuovo studio del MIT aggiunge a un numero crescente di prove che le dimensioni degli algoritmi sono meno importanti della loro complessità architettonica. Ad esempio, all’inizio di questo mese, un team di ricercatori di Google ha pubblicato uno studio in cui si affermava che un modello molto più piccolo di GPT-3 – Fine-tuned Language Net (FLAN) – supera GPT-3 con un ampio margine su una serie di benchmark impegnativi. E in un sondaggio del 2020 , OpenAI ha scoperto che dal 2012 la quantità di calcolo necessaria per addestrare un modello di intelligenza artificiale alle stesse prestazioni sulla classificazione delle immagini in un benchmark popolare, ImageNet, è diminuita di un fattore due ogni 16 mesi.
Ci sono risultati in contrario. Nel 2018, i ricercatori di OpenAI hanno pubblicato un’analisi separata che mostra che dal 2012 al 2018 la quantità di calcolo utilizzata nelle più grandi sessioni di addestramento sull’intelligenza artificiale è cresciuta più di 300.000 volte con un tempo di raddoppio di 3,5 mesi, superando il ritmo della legge di Moore. Ma supponendo che i miglioramenti algoritmici ricevano maggiore attenzione negli anni a venire, potrebbero risolvere alcuni degli altri problemi associati a modelli linguistici di grandi dimensioni, come l’impatto ambientale e il costo.
Nel giugno 2020, i ricercatori dell’Università del Massachusetts ad Amherst hanno pubblicato un rapporto che stima che la quantità di energia richiesta per l’addestramento e la ricerca di un certo modello comporta le emissioni di circa 626.000 libbre di anidride carbonica , equivalenti a quasi 5 volte le emissioni vitali del auto americana media. Il solo GPT-3 ha utilizzato 1.287 megawatt durante l’allenamento e ha prodotto 552 tonnellate di emissioni di anidride carbonica, secondo uno studio di Google , la stessa quantità emessa dal consumo medio di elettricità di 100 case in un anno.
Per quanto riguarda le spese, un rapporto sincronizzato ha stimato che il modello di rilevamento delle notizie false di Grover dell’Università di Washington costa $ 25.000 per l’addestramento; Secondo quanto riferito, OpenAI ha accumulato $ 12 milioni di formazione GPT-3; e Google ha speso circa $ 6.912 per addestrare BERT . Mentre i costi di formazione sull’intelligenza artificiale sono diminuiti di 100 volte tra il 2017 e il 2019, secondo una fonte , questi importi superano di gran lunga i budget informatici della maggior parte delle startup e delle istituzioni, per non parlare dei ricercatori indipendenti.
“Attraverso la nostra analisi, siamo stati in grado di dire quante altre attività potrebbero essere eseguite utilizzando la stessa quantità di potenza di calcolo dopo il miglioramento di un algoritmo”, ha affermato Thompson in un comunicato stampa. “In un’era in cui l’impatto ambientale dell’informatica è sempre più preoccupante, questo è un modo per migliorare le aziende e le altre organizzazioni senza svantaggi”.