Immagine AI

C’è qualcosa di potente nell’idea che l’AI abbia ormai capacità talmente elevate da essere paragonata a quelle di un dottorando, di chi ha dedicato anni allo studio specialistico, al metodo accademico, alla rigore nel pensiero. È uno specchio affascinante, che riflette i progressi impressionanti degli ultimi tempi. Ma secondo Demis Hassabis, il fondatore e CEO di DeepMind, chiamare i sistemi AI di oggi “intelligenze da PhD” è semplicemente una esagerazione, un’etichetta che distorce la realtà dei fatti. Davanti all’euforia che circonda alcuni annunci – come quello di GPT-5, definito da OpenAI “a livello di PhD” – Hassabis preferisce essere prudente, sottolineando quanto resti lontana una vera intelligenza generale coerente, creativa, in grado di reggere il confronto con l’umano non solo in situazioni ottimali.

Quando parla, Hassabis non rigetta tutto ciò che l’AI ha realizzato: riconosce che molti modelli mostrano prestazioni che, in certi compiti specifici, sembrano appartenere al mondo accademico di alto livello. Ci sono problemi di matematica complessa, analisi linguistiche raffinate, traduzioni, elaborazioni di immagini che sorprendono, che danno adito a paragoni con la ricerca universitaria. Ma quell’impressione, quell’illusione, ha delle crepe evidenti. Perché in situazioni normali, “di tutti i giorni”, nei compiti anche solo leggermente fuori dalla routine o quando il modo in cui le domande vengono poste cambia di poco, questi modelli inciampano. Fanno errori davvero semplici: un calcolo scolastico, un conteggio, una logica banale che per un essere umano è immediata. E questo succede con sufficiente frequenza da mostrare che non c’è ancora quella stabilità di performance che dovrebbe caratterizzare un’“intelligenza da PhD”.

La questione non è puramente accademica o retorica: tocca il modo in cui definiamo cosa l’AI può davvero fare oggi, e cosa sono invece aspettative gonfiate da marketing, da sguardi verso il futuro, da desiderio di impressionare. Chiamare un modello “PhD‐intelligent” rischia di generare illusioni: illusioni sull’infallibilità, sulla robustezza, sulla generalità delle sue capacità. E quelle illusioni possono avere conseguenze concrete: se un modello viene usato in ambiti dove serve elevata affidabilità – medicina, giustizia, applicazioni scientifiche – le sue fragilità possono diventare pericolose.

Hassabis sostiene che la vera intelligenza generale, quella che può essere definita “PhD in generale”, richiede non solo che un sistema performi elevatamente in singoli compiti, ma che lo faccia in molti domini, che apprenda in modo continuo, che abbia ragionamento intuitivo e creatività. Attualmente molti modelli hanno alcuni strumenti da PhD, come la capacità di analizzare testi complessi, generare proposte originali, comprendere sfumature. Ma non è sufficiente che un modello eccella in un’area: serve coerenza, serve che non cada nei trucchi, nelle domande mal poste, negli errori umilianti che rivelano che la struttura non è solida come sembrava.

In particolare, Hassabis ha indicato alcuni gap chiave: la continual learning, ossia la capacità di apprendere costantemente dal flusso di esperienze nuove senza dimenticare quelle passate; il ragionamento intuitivo, quella capacità di fare collegamenti non espliciti, trasversali, creativi tra domini differenti; la consistenza nel ragionamento, nel particolare nel ragionamento logico, matematico, nei compiti in cui non c’è solo “abbastanza dati” ma serve capire come muovere i passi logici. Sono queste mancanze che, secondo lui, impediscono agli attuali modelli di essere davvero all’altezza di una intelligenza generale degna di quel nome.

Un altro punto che emerge forte nelle sue parole è il distacco temporale: l’AGI (Artificial General Intelligence) non è una promessa imminente per Hassabis, non è alle porte entro pochi mesi. Il suo orizzonte è di cinque-dieci anni. È un tempo non breve, che implica che ci sia ancora da fare molto: ricerca, innovazione, sviluppo di nuovi paradigmi oltre la semplice scala dei modelli, più dati, più feedback reali, più benchmark più duri. E benché la qualità dei modelli continui ad aumentare – dice –, non c’è segno di stagnazione; anzi, dalla sua prospettiva ci sono ancora margini ampi di progresso, specie nelle capacità che ancora mancano.

Alla fine, il richiamo di Hassabis è a non lasciarsi sedurre dal linguaggio pomposo, dai claim audaci, dalle etichette facilette. Chiede trasparenza: che si riconoscano i punti di forza ma anche le debolezze, che si comprenda che un “PhD level” in un compito non significa “PhD level” ovunque. Chiede che quando si fa ricerca, sviluppo, quando si rilasciano modelli, si misuri non solo dove si vince, ma anche dove si perde, si inciampa, si fallisce.

Di Fantasy