Immagina un’intelligenza artificiale che non solo risponde, ma crea il mondo intorno a sé: modella, simula e costruisce scenari reali in cui può agire, prevedere e ragionare — tutto istantaneamente. È questa la promessa dei world models, e secondo Demis Hassabis, CEO di Google DeepMind, sono la chiave per sbloccare l’AGI (Artificial General Intelligence).
I “modelli del mondo” (world models) vanno oltre l’analisi linguistica: sono in grado di riprodurre la struttura del mondo fisico, le sue leggi, oggetti, materiali e perfino comportamenti animali e umani. Non si limitano a capire, ma simulano — creando mondi coerenti e persistenti, ove le azioni generano conseguenze tangibili. Questa è la base del ragionamento spaziale e contestuale di un’intelligenza veramente generale.
Il cuore pulsante di questa visione è Genie 3, l’ultima generazione di world model di DeepMind. A partire da un semplice prompt testuale, Genie 3 genera ambienti 3D interattivi a 720p e 24 fps, mantenendo coerenza nello spazio per alcuni minuti, grazie alla sua capacità autoregressiva di ricordare ciò che ha creato.
Non è solo scena virtuale, ma ambiente persistente: se modifichi un oggetto o cambi una condizione, ciò rimane anche quando torni a guardare. Oggetti, pareti dipinte o scritte rimangono inalterate — un’istantanea coerente del mondo generato.
Genie 3 non è solo un simulatore: è un campo di addestramento per agenti intelligenti. Il modello SIMA (Simulation Agent) può agire all’interno di questi mondi generati, eseguendo compiti come raggiungere un oggetto o navigare in un contesto complesso. Genie 3 simula le conseguenze di queste azioni, consentendo un apprendimento dinamico basato sull’esperienza virtuale.
Hassabis ammette: anche modelli avanzati come Gemini possono vincere medaglie in competizioni di alto livello — come le Olimpiadi Internazionali di Matematica (IMO) — ma inciampano su errori banali. Questo “ragionamento frammentario” o jagged intelligence, come lo chiama, rivela una mancanza di coerenza, pianificazione e memoria stabile.
L’idea cruciale è che l’IA dentro l’IA possa generare mondi al volo, ovvero costruire simulazioni interne che permettono di prevedere e valutare le conseguenze delle sue stesse decisioni. In pratica: mentre un LLM decide un’azione, il world model simula le possibili ripercussioni, aumentando la robustezza e sicurezza della risposta.
Hassabis vede nei world models — e nello sviluppo di modelli come Genie 3 — l’alba di un’intelligenza capace di:
- Pianificare con cognizione del contesto fisico;
- Simulare “cosa succede se…” come un essere umano ragionerebbe;
- Addestrare agenti in ambienti ricchi e realistici senza dipendere solo da dati storici;
- Superare limiti di LLM fragili, rendendoli più coerenti, affidabili e proattivi.