Immagine AI

OpenAI avrebbe applicato nuove tecniche di ottimizzazione dell’inferenza capaci di ridurre di oltre la metà il costo necessario per eseguire i propri modelli AI. Questo insieme di miglioramenti viene indicato come Compute Multiplier, un’espressione usata per descrivere tecniche software e infrastrutturali che aumentano la quantità di lavoro eseguibile con la stessa capacità di calcolo disponibile.

Il Compute Multiplier non identifica una singola funzione né un prodotto specifico. Indica invece una combinazione di metodi che permettono di sfruttare in modo più efficiente GPU, memoria, cache e capacità di rete durante l’esecuzione di un modello. L’obiettivo è ottenere più richieste, più token generati o tempi di risposta più rapidi senza dover aumentare nella stessa proporzione il numero di acceleratori installati nei data center.

Le ottimizzazioni sarebbero già state applicate almeno a una parte di ChatGPT destinata agli utenti non autenticati. In un determinato momento, questo segmento del servizio sarebbe stato gestito con alcune centinaia di GPU Nvidia. Il dato non rappresenta l’intera infrastruttura di ChatGPT, ma mostra come un miglioramento nell’efficienza di inferenza possa ridurre sensibilmente la potenza necessaria per sostenere specifici carichi di utilizzo.

I dettagli dell’implementazione non sono stati pubblicati. Tuttavia, un Compute Multiplier può includere la quantizzazione, cioè la riduzione della precisione numerica utilizzata per pesi e attivazioni del modello. L’uso di formati più compatti diminuisce il fabbisogno di memoria e riduce il volume di dati trasferiti all’interno della GPU, consentendo di eseguire più richieste sulla stessa infrastruttura, purché la perdita di accuratezza resti entro limiti accettabili.

Un altro elemento rilevante è la gestione della key-value cache. Durante la generazione di testo, il modello conserva le rappresentazioni dei token già elaborati per evitare di ricalcolare l’intero contesto a ogni nuovo passaggio. Migliorare il riuso, la compressione, il paging o la condivisione della cache permette di ridurre il costo delle conversazioni lunghe, dei prompt complessi e dei sistemi che devono mantenere una cronologia estesa.

Il Compute Multiplier può comprendere anche il batching, cioè l’elaborazione simultanea di più richieste compatibili sulla stessa GPU. Una singola domanda breve raramente sfrutta tutta la capacità dell’hardware; aggregare più operazioni consente di aumentare il throughput complessivo e ridurre il costo unitario per richiesta. Il sistema deve però bilanciare questa logica con la latenza, perché batch troppo grandi possono rallentare la risposta percepita dagli utenti.

Un’altra tecnica possibile è il routing dinamico. Non tutte le richieste richiedono lo stesso modello, lo stesso livello di ragionamento o la stessa quantità di calcolo. Un’infrastruttura può instradare domande semplici verso modelli più piccoli, limitare l’attivazione di componenti costose nei modelli mixture-of-experts oppure riservare le capacità di ragionamento più avanzate ai compiti che ne hanno realmente bisogno. In questo modo, la piattaforma evita di utilizzare la massima potenza disponibile anche per attività leggere o ripetitive.

Anthropic utilizza da tempo l’espressione Compute Multiplier per indicare questo tipo di vantaggio tecnologico. Il concetto riguarda sia l’addestramento sia l’inferenza, ma diventa particolarmente importante nella fase di utilizzo quotidiano dei modelli, dove ogni risparmio viene replicato su milioni o miliardi di richieste. In un mercato in cui costruire nuovi data center e ottenere nuove GPU richiede mesi o anni, aumentare il rendimento dell’hardware già installato può avere un impatto immediato sulla capacità operativa.

La riduzione del costo di inferenza può tradursi in limiti d’uso più elevati per gli abbonati, prezzi API più competitivi, maggiore disponibilità delle funzioni di ragionamento e margini migliori per il provider. Il Compute Multiplier diventa quindi una leva che incide direttamente non solo sulle prestazioni tecniche, ma anche sulla sostenibilità economica dei servizi AI generativi.

L’effetto di queste ottimizzazioni può essere in parte compensato dalla crescita dei modelli successivi, che tendono ad avere più parametri, finestre di contesto più ampie e capacità multimodali più onerose. Per questo il vantaggio competitivo non dipende soltanto dall’accesso a nuove GPU, ma dalla capacità di combinare modelli più potenti con sistemi di inferenza sempre più efficienti.

Di Fantasy