Nel corso dell’AI Impact Summit tenutosi a Nuova Delhi il 18 febbraio, Demis Hassabis, amministratore delegato di Google DeepMind, ha delineato con chiarezza lo stato attuale dell’intelligenza artificiale rispetto all’obiettivo dell’AGI, Artificial General Intelligence, indicando tre limiti strutturali che, a suo avviso, devono essere superati prima di poter parlare di sistemi realmente comparabili all’intelligenza umana. La sua risposta alla domanda se l’AI abbia già raggiunto un livello umano è stata netta: non siamo ancora a quel punto. Tuttavia, secondo la sua previsione, il superamento di queste barriere potrebbe avvenire attorno al 2030, coerentemente con la traiettoria ventennale immaginata sin dalla fondazione di DeepMind nel 2010.
La prima criticità evidenziata riguarda l’assenza di un vero apprendimento continuo. I modelli attuali, inclusi i grandi modelli linguistici e multimodali, sono addestrati su enormi moli di dati in una fase offline e successivamente “congelati” nella loro configurazione. Pur potendo essere aggiornati attraverso nuove versioni o fine-tuning controllati, non apprendono in modo costante e incrementale dall’esperienza quotidiana come farebbe un essere umano. Secondo Hassabis, un’AGI autentica dovrebbe essere capace di aggiornarsi momento per momento, integrando feedback in tempo reale, adattandosi al contesto, all’ambiente e persino al singolo utente. Ciò implica un cambiamento architetturale profondo: non solo modelli più grandi o più addestrati, ma sistemi dotati di meccanismi di memoria persistente, apprendimento online stabile e capacità di evitare fenomeni come il catastrophic forgetting. La sfida non è soltanto tecnica, ma epistemologica: si tratta di trasformare un modello predittivo statico in un sistema che evolve continuamente la propria rappresentazione del mondo.
La seconda area di debolezza riguarda la pianificazione a lungo termine. L’AI contemporanea è particolarmente efficace nel problem solving circoscritto, nella generazione di piani a breve termine o nella decomposizione di compiti in sottoattività immediatamente eseguibili. Tuttavia, la capacità di mantenere coerenza strategica su orizzonti temporali estesi resta limitata. Per Hassabis, un’AGI dovrebbe essere in grado di definire obiettivi complessi e distanti nel tempo, suddividerli in sotto-obiettivi coerenti e monitorare costantemente l’avanzamento verso il risultato finale, adattando il piano quando il contesto cambia. Questo richiede l’integrazione di sistemi di memoria a lungo termine, moduli di ragionamento simbolico o neuro-simbolico e algoritmi di pianificazione gerarchica capaci di operare in ambienti incerti. Non si tratta semplicemente di generare una sequenza di azioni, ma di costruire e mantenere una rappresentazione interna dinamica del mondo, aggiornata in funzione dell’esperienza e delle nuove informazioni disponibili.
Il terzo limite identificato è quello che Hassabis definisce “intelligenza frastagliata”. I sistemi attuali possono raggiungere prestazioni straordinarie in compiti altamente specializzati, arrivando a superare l’uomo in ambiti come il gioco del Go o la risoluzione di problemi matematici complessi. Tuttavia, la stessa architettura può fallire in compiti apparentemente banali se il problema viene presentato in una forma leggermente diversa. Questa discontinuità nelle prestazioni rivela che la generalizzazione è ancora imperfetta. Un’AGI autentica dovrebbe dimostrare robustezza trasversale, mantenendo coerenza logica e stabilità cognitiva in contesti differenti, senza oscillazioni marcate tra eccellenza e errore elementare. La riduzione di questa frammentazione richiede una comprensione più profonda delle rappresentazioni interne e una maggiore integrazione tra conoscenza, ragionamento e percezione.
Per affrontare queste tre sfide, Hassabis ha suggerito un’evoluzione dei modelli di base verso quello che definisce un “modello mondiale”. L’idea è superare il paradigma puramente linguistico o statistico per costruire sistemi capaci di rappresentare in modo strutturato la dinamica del mondo fisico e sociale. In questa prospettiva, un elemento chiave sarebbe l’integrazione dell’algoritmo di inferenza sviluppato per AlphaGo, il sistema che ha dimostrato capacità avanzate di pianificazione e valutazione di scenari complessi. L’inferenza di AlphaGo non si limitava a reagire a una singola mossa, ma esplorava molteplici percorsi futuri, valutandone probabilisticamente gli esiti. Trasportare questa capacità in ambienti reali, molto più incerti e meno formalizzati del gioco del Go, rappresenta una sfida di ordine superiore, poiché nel mondo reale le regole non sono perfettamente definite e l’informazione è spesso incompleta o ambigua.
Secondo Hassabis, la combinazione tra modelli di conoscenza estesa e meccanismi di inferenza avanzata potrebbe produrre progressi tangibili nei prossimi cinque-dieci anni. In questo scenario, il 2030 non è una data simbolica, ma il punto di convergenza di una roadmap iniziata nel 2010 con la fondazione di DeepMind, concepita fin dall’inizio come un progetto ventennale orientato all’AGI.
Nel frattempo, il 2026 viene descritto come l’inizio dell’“era agentica”. I sistemi stanno diventando più autonomi, capaci di agire in modo proattivo anziché limitarsi a rispondere a input isolati. Gli agenti AI emergenti integrano percezione, memoria, pianificazione e azione in cicli continui, aprendo la strada a nuove applicazioni in ambito produttivo, creativo e scientifico. Tuttavia, Hassabis adotta una posizione prudente rispetto all’idea di “ricercatori AI” pienamente autonomi. Pur riconoscendo il potenziale trasformativo dell’intelligenza artificiale nella scoperta scientifica, ritiene che servirà più di un decennio prima che l’AI possa diventare uno scienziato collaborativo capace di formulare ipotesi originali e individuare le domande corrette da porsi. Individuare il problema giusto, sostiene, è spesso più difficile che risolverlo: è questo il livello più alto di intelligenza.
In parallelo, ha previsto sviluppi significativi nel campo della robotica nei prossimi due o tre anni, grazie all’integrazione di modelli multimodali avanzati come Gemini, capaci di combinare comprensione linguistica e visiva per interpretare il contesto fisico. L’unione tra percezione multimodale e pianificazione inferenziale potrebbe consentire ai robot di operare con maggiore adattabilità negli ambienti reali, riducendo la distanza tra simulazione e mondo fisico.
Il messaggio finale è improntato a un cauto ottimismo. Hassabis intravede nella convergenza tra apprendimento continuo, pianificazione a lungo termine e riduzione dell’intelligenza frastagliata la chiave per aprire una nuova fase della storia tecnologica. Prima ancora del pieno raggiungimento dell’AGI, prevede una nuova età dell’oro della scoperta scientifica, in cui l’AI accelererà progressi in medicina, biologia e scienze dei materiali. Tuttavia, il percorso resta complesso e richiede maturità tecnologica, rigore metodologico e una comprensione più profonda dei meccanismi cognitivi che l’intelligenza artificiale tenta di emulare.