Immagine AI

Mentre l’adozione dei modelli di intelligenza artificiale continua la sua corsa inarrestabile, specialmente all’interno della comunità open source, emerge un costo ambientale e infrastrutturale che è stato a lungo sottovalutato. Un recente studio condotto dal progetto “AI Energy Score”, frutto della collaborazione tra Sasha Lucioni di HuggingFace e Boris Gamazychkov di Salesforce, ha sollevato il velo sul consumo energetico nascosto dei modelli di inferenza di nuova generazione, rivelando cifre che destano seria preoccupazione. I ricercatori hanno sottoposto quaranta modelli aperti, sviluppati da OpenAI, Google, DeepSec e altri, a un test rigoroso: l’esecuzione dello stesso prompt sulla stessa hardware per misurare l’energia consumata durante il processo di elaborazione.

I risultati di questa misurazione sono stati a dir poco scioccanti. È emerso che, in media, un modello di intelligenza artificiale con capacità di inferenza potenziata consuma circa cento volte più energia di un modello di base generico per elaborare un lotto di mille prompt. Questa differenza sbalorditiva non è dovuta alla semplice esecuzione del codice, ma al meccanismo fondamentale dell’inferenza avanzata. Per aumentare l’accuratezza e fornire risposte più elaborate e sfumate, questi modelli generano internamente quelli che vengono definiti “token di pensiero”, lunghi e articolati in più fasi. Questo processo di riflessione algoritmica, sebbene cruciale per la qualità dell’output, genera da trecento a ottocento volte più token rispetto a un modello convenzionale, incrementando esponenzialmente i requisiti computazionali.

Il caso del modello Deepseek-R1-Distillation-Rama-70B offre un esempio lampante della scala di questo consumo. Con la funzione di inferenza disattivata, il modello consumava circa cinquanta wattora (Wh), una quantità sufficiente ad alimentare una lampadina da cinquanta watt per un’ora. Tuttavia, con la funzione di inferenza abilitata, il consumo è schizzato a ben trecentottomilacentottantasei wattora. Si tratta di un aumento di oltre seimiladuecento volte rispetto alla modalità di base, una cifra che evidenzia in modo netto quanto sia dispendioso il deep thinking artificiale.

I ricercatori hanno tuttavia sottolineato un dato cruciale: il consumo energetico non è facilmente prevedibile basandosi solo sulla dimensione dei parametri del modello. Ogni architettura genera inferenze con modalità e livelli di dettaglio diversi. Ad esempio, il modello Phi 4 di Microsoft ha registrato un aumento notevole, passando da diciotto wattora in modalità disabilitata a novemilaquattrocentosessantadue wattora con la funzionalità attiva. Al contrario, il modello gpt-oss-120B di OpenAI ha mostrato una differenza relativamente meno marcata tra l’intensità di inferenza aumentata e diminuita. Ciò suggerisce che l’efficienza non risiede unicamente nella dimensione del modello, ma nell’architettura specifica e nell’approccio algoritmico adottato per la generazione dei token di pensiero.

Queste scoperte si inseriscono in un contesto globale già teso per quanto riguarda l’approvvigionamento energetico. La crescente domanda di potenza da parte dell’IA sta già mettendo a dura prova le reti elettriche mondiali; le tariffe elettriche all’ingrosso nelle aree degli Stati Uniti ad alta densità di data center sono aumentate fino al duecentosessantasette percento negli ultimi cinque anni. Le stesse big tech come Microsoft, Google e Amazon hanno ammesso che l’espansione dei data center necessari per l’IA potrebbe seriamente minacciare gli obiettivi climatici a lungo termine che si sono prefissate. In questo scenario, il consumo energetico elevato dei modelli di inferenza, richiesto non solo durante l’apprendimento su larga scala, ma anche durante il processo di elaborazione del modello stesso, intensifica l’urgenza di trovare soluzioni.

In questo quadro, la ricercatrice Lucioni ha lanciato un monito: non tutte le query necessitano di essere processate da modelli di inferenza così potenti e dispendiosi. L’imperativo categorico che emerge dai risultati è la necessità di una vera e propria efficienza dell’IA, ovvero la capacità di selezionare e utilizzare il modello appropriato per ogni attività specifica. Infine, lo studio solleva un dibattito sulla misurazione del consumo energetico stesso. I risultati ottenuti contrastano infatti con dichiarazioni ottimistiche come quella di Google, secondo cui Gemini utilizzerebbe “solo circa zero virgola ventiquattro wattora per elaborare un messaggio di testo medio”. Sebbene tali differenze possano essere attribuite a metodologie di misurazione diverse, i dati del progetto “AI Energy Score” pongono interrogativi fondamentali sull’accuratezza nel riflettere il consumo energetico effettivo dei modelli ad alte prestazioni una volta che la loro capacità di inferenza viene sfruttata al massimo.

Di Fantasy