Immagine AI

Immagina un’intelligenza artificiale che non solo risponde a un problema matematico, ma controlla autonomamente il proprio ragionamento, individua gli errori, li corregge, e continua a migliorare finché non arriva a una soluzione accurata. È proprio questo il metodo che un professore dell’UCLA ha dimostrato essere capace di replicare, con un approccio semplice ma potente, le performance che OpenAI e Google avevano attribuito a tecnologie molto sofisticate.

Secondo un’analisi riportata da De Information e rilanciata da AI Times, Lin Yang, docente di ingegneria elettrica e informatica all’Università della California, Los Angeles, ha realizzato un esperimento con tre tra i più avanzati modelli di AI in circolazione: GPT-5 di OpenAI, Gemini 2.5 Pro di Google, e Grok-4 di xAI. L’obiettivo era chiaro: valutare se, senza ricorrere a trucchi troppo complicati, questi sistemi potessero raggiungere il livello di un vincitore della International Mathematical Olympiad (IMO), la famosa competizione internazionale di matematica per studenti.

Ebbene, la risposta è “sì” — ma non per magia, bensì grazie a un meccanismo che Yang chiama “verification-and-refinement pipeline”, ovvero una catena di verifica e raffinamento. In pratica:

  • Il modello prova a risolvere il problema (o i problemi).
  • Poi viene “incaricato” anche di assumere il ruolo di esaminatore, cercando dentro il proprio ragionamento delle lacune logiche o degli errori.
  • Se vengono trovati errori, questi vengono comunicati al modello, che riformula la risposta corretta.
  • Il ciclo si ripete finché il modello non produce una soluzione senza errori (o almeno finché non ci sono più errori evidenti).

Quando è stato applicato questo metodo ai sei problemi selezionati, i modelli hanno risolto cinque di essi con successo — lo stesso risultato riportato da OpenAI e Google nei loro precedenti annunci relativamente alla IMO.

Anche se il risultato è impressionante, l’esperimento di Yang non è privo di limiti. Alcune debolezze emergono chiaramente:

  • Se il modello viene istruito a tentare tutte le possibili soluzioni o approcci, il consumo di risorse (tempo computazionale, memoria) può diventare enorme, fino al punto in cui il processo fallisce per mancanza di efficienza.
  • Modelli più piccoli, meno sofisticati, o open-source, che non hanno la potenza di elaborazione o la complessità intrinseca dei GPT-5, Gemini 2.5, Grok-4, non riescono a seguire bene questo processo fino al successo IMO. In altre parole: serve già un modello abbastanza potente affinché la catena verifica-raffinamento faccia davvero la differenza.

Non è chiaro fino a che punto questo metodo di verifica interna sia esattamente lo stesso che OpenAI definisce con il concetto di “verificatore universale” (“universal verifier”). Yang stesso nota che non può affermare con certezza che siano identici, ma che in ogni caso dimostra che non sempre serve una struttura tecnologica complicatissima, bensì che anche con strumenti relativamente “semplici” si possono raggiungere prestazioni elevate se si impiega bene ciò che i modelli già sanno fare.

Questa scoperta ha diverse implicazioni, sia positive che complicate:

  • Da una parte, dimostra che l’AI ha dentro di sé capacità latenti che non sempre emergono, ma che possono essere sollecitate da istruzioni ben pensate. La componente “controllo interno”, che induce il modello a fare autocritica, si rivela cruciale.
  • Dall’altra, solleva questioni su come questi sistemi vengano utilizzati: se un sistema AI può migliorarsi da sé, verificarne continuamente le uscite, questo può portare a applicazioni molto più affidabili in campi come matematica, scienza, diagnostica, o altri settori in cui la correttezza è vitale.

Tuttavia, c’è anche il lato “rischio”: i modelli che non seguono bene le istruzioni, oppure che non hanno sufficiente capacità di elaborazione, potrebbero produrre risultati errati pur apparendo “sicuri”, oppure non riuscire affatto a completare il ciclo di miglioramento. Inoltre, se non c’è trasparenza nel modo in cui è strutturato questo processo di verifica ‒ chi controlla la verifica? quali errori vengono ammessi? ‒ c’è sempre il rischio che errori sottili restino nascosti.

L’esperimento di Lin Yang suggerisce che per raggiungere livelli eccezionali di prestazione, come quelli necessari per vincere una medaglia d’oro nell’IMO, non sia indispensabile inventare algoritmi radicalmente nuovi: molto può essere ottenuto tirando fuori il potenziale già presente nei modelli, soprattutto attraverso meccanismi di auto-verifica e raffinamento. È come se l’intelligenza artificiale avesse bisogno di imparare non solo a “fare”, ma anche a “controllarsi”. Questa capacità di autovalutazione rende più plausibili molte delle affermazioni fatte sulle potenzialità dell’AI: non siamo più nel regno delle promesse futuristiche, ma sempre più in quello dei risultati che emergono concretamente. Restano però da affrontare questioni di efficienza, robustezza, e trasparenza, se vogliamo che questi sistemi diventino affidabili al di fuori dei laboratori.

Di Fantasy