Immagine AI

Nell’intelligenza artificiale, siamo abituati a immaginare due fasi nettamente distinte: una fase di addestramento, in cui il modello viene “allenato” su grandi quantità di dati, e una fase di inferenza, in cui quel modello—ormai fisso—viene usato per generare risposte o svolgere compiti. Ma ciò che OpenAI ha annunciato rompe questa distinzione tradizionale: “non esiste più distinzione tra addestramento e inferenza”, ha dichiarato Peter Heshry, direttore del team del data centre “Stargate” di OpenAI, durante un recente evento. Ci troviamo dunque in quella che potrebbe essere definita una nuova era dell’IA, dove il modello è in «apprendimento praticamente continuo».

Secondo una segnalazione di The Information, OpenAI ha fatto sapere che i suoi modelli ora non solo rispondono alle domande, ma — durante la stessa fase di inferenza — continuano a campionare, apprendere e migliorare le proprie prestazioni. In altre parole, ciò che fino a ieri veniva considerato “lusso” o “nice-to-have” (migliorare il modello dopo il lancio) diventa ora parte integrante del sistema operativo dell’IA: il modello è vivo, nel senso che evolve mentre è già in uso.

Un punto centrale di questa strategia è il concetto di test-time compute (TTC): un’allocazione di risorse di calcolo durante la fase di inferenza—cioè quando l’utente pone una domanda—che va oltre la semplice applicazione del modello addestrato. Questo concetto, già oggetto di discussione nella letteratura e nel blog-tech, consiste nel far sì che il modello “pensieri” di più (cioè impieghi più risorse, faccia ragionamenti più lunghi o esplori vari scenari) quando la richiesta lo richiede, anziché trattare ogni domanda allo stesso modo.

OpenAI sembra aver spostato l’attenzione dal “solo addestramento massivo” verso un sistema in cui anche l’inferenza è ricca di dinamica, dove il modello può usare più potenza di calcolo, più flusso di ragionamento e maggiore riflessione per generare le risposte. Ciò implica che la fase di servizio non sia più una semplice applicazione del modello addestrato, ma un’attività in cui il modello può migliorarsi autonomamente, apprendere da nuove interazioni, raffinarsi e diventare più efficiente o più accurato.

Le ragioni che stanno dietro a questa evoluzione sono molte; in primo luogo, l’idea che semplicemente aumentare i dati e le dimensioni del modello (il tradizionale “scale up”) stia entrando in una fase di rendimenti decrescenti per alcuni tipi di attività. L’inferenza statica (risposta immediata, unica passata) tratta tutte le domande come uguali, ma la realtà è che non lo sono: alcune richieste richiedono ragionamenti complessi, collegamenti tra fatti, esplorazione di scenari. Qui entra in gioco il test-time compute, che consente di allocare più risorse quando serve, e meno quando non serve, ottimizzando sia la qualità che il costo.

Dall’altro lato, questa modalità apre nuove domande per l’infrastruttura: se l’inferenza diventa più costosa, più potente, più dinamica, occorrono più GPU, più elaborazione, più pensiero “real-time”. In effetti, è stato riferito che OpenAI sta aumentando la domanda di chip di ultima generazione (come le GPU della NVIDIA serie Blackwell) proprio perché la fase di inferenza “potenziata” richiede risorse che fino a poco tempo fa sarebbero state impensabili per la semplice esecuzione di un modello addestrato.

In termini pratici per l’utente finale o per l’azienda che utilizza questi modelli, l’impatto può essere significativo: risposte più accurate, più contestualizzate, più ragionate. Non solo “qual è la capitale d’Italia?” ma “spiegami come la politica monetaria europea influenza il mercato immobiliare in Veneto in questo momento”. In quel tipo di domanda, avere un modello che può “pensare” di più, esplorare vari scenari, correggere se stesso, può fare la differenza.

Di Fantasy