Immagine AI

Il mercato dell’inferenza AI sta mostrando un segnale che merita attenzione: l’indice LLM Token Expenditure Index di Silicon Data, che misura il costo medio effettivamente sostenuto per l’utilizzo dei token dei modelli linguistici, ha registrato una flessione di quasi il 20% dopo il picco raggiunto a maggio. Dopo essere quasi raddoppiato dal dicembre precedente, il dato si è invertito proprio mentre le grandi aziende tecnologiche continuano a investire in data center, GPU e capacità di calcolo per l’intelligenza artificiale.

Il valore dell’indice non corrisponde al semplice listino di un singolo modello. Silicon Data lo calcola come tasso medio normalizzato in dollari per milione di token, combinando osservazioni su provider API frontier, piattaforme di inferenza con modelli open-weight, istanze dedicate intermediate da broker e deployment self-hosted. Nella metodologia entrano anche variabili come rapporto tra token di input e output, finestra di contesto, batching, affidabilità e concentrazione effettiva dell’utilizzo. Per questo una sua riduzione può dipendere sia da un calo della domanda, sia da un cambiamento del mix di modelli e delle condizioni economiche con cui l’inferenza viene erogata.

Una prima spiegazione riguarda il forte abbassamento dei prezzi per token. Dal 2023 il costo unitario dei token è sceso di oltre il 90% su base annua in diverse fasce di mercato. Di conseguenza, un’azienda può utilizzare un volume crescente di modelli AI e al tempo stesso spendere meno in valore assoluto. Il calo della spesa aggregata non implica quindi automaticamente una contrazione dell’uso: può riflettere il fatto che lo stesso lavoro viene svolto con modelli meno costosi, inferenza più ottimizzata e infrastrutture utilizzate con maggiore efficienza.

Un secondo fattore è il cambiamento nelle architetture adottate dalle imprese. Molte organizzazioni stanno riducendo la dipendenza da un unico modello premium per tutte le attività e adottano routing tra modelli diversi. Le richieste più semplici, ripetitive o ad alto volume vengono inviate a modelli leggeri, open-weight o ottimizzati per costo e latenza; i modelli frontier vengono riservati a ragionamento complesso, generazione di codice, analisi specialistiche e task nei quali la qualità aggiuntiva giustifica un costo superiore. In questo scenario, la diminuzione dell’indice segnala anche una maggiore maturità nella gestione dei carichi AI.

Il dato può però indicare un limite più concreto nella monetizzazione. Le aziende stanno introducendo budget, soglie di consumo e criteri di ritorno economico per evitare che l’uso indiscriminato di token trasformi l’AI in una voce di costo difficile da controllare. Il passaggio dalla sperimentazione a casi d’uso con ROI verificabile porta quindi a ridurre le attività senza impatto diretto sul fatturato, a limitare gli agenti troppo costosi e a misurare con maggiore precisione il rapporto tra valore prodotto, tempo di elaborazione e spesa di inferenza.

Il confronto tra crescita degli investimenti e crescita dei ricavi rende questa dinamica particolarmente rilevante. Le stime richiamate nel dibattito indicano uno scarto del 46% tra l’espansione degli investimenti globali nell’AI e la crescita effettiva dei ricavi collegati al settore, una distanza superiore a quella osservata nelle telecomunicazioni durante la fase finale della bolla dot-com. Il rischio non riguarda soltanto la domanda di modelli, ma la capacità dei provider di mantenere potere di prezzo in un mercato dove alternative open-weight, modelli più piccoli e sistemi di ottimizzazione riducono il costo marginale dell’inferenza.

La discesa della spesa per token non equivale quindi, da sola, allo sgonfiamento della domanda AI. È più correttamente un indicatore della trasformazione del mercato: meno spazio per l’utilizzo indiscriminato dei modelli più costosi, maggiore attenzione al routing, all’efficienza dei workload, alla scelta tra modelli proprietari e open-weight e alla sostenibilità economica dei servizi basati su inferenza. La domanda di GPU ad alte prestazioni e di memoria HBM resta infatti sostenuta dagli ordini già programmati, ma il valore generato da quella capacità dipenderà sempre più dalla capacità delle aziende di convertire token e calcolo in ricavi misurabili.

Di Fantasy