Con l’apertura al pubblico di Project Genie, Google DeepMind compie un passo significativo verso una nuova generazione di sistemi di intelligenza artificiale capaci non solo di generare contenuti, ma di costruire veri e propri mondi virtuali interattivi. Il progetto è stato reso disponibile il 29 del mese, in fase sperimentale, agli abbonati Google AI Ultra negli Stati Uniti, segnando la prima occasione in cui utenti esterni possono interagire direttamente con quello che DeepMind definisce un “modello di mondo”.
Project Genie arriva circa cinque mesi dopo la presentazione dell’anteprima di Genie 3, mostrata nell’agosto dello scorso anno come risultato di una ricerca avanzata sui cosiddetti world models. L’idea alla base è ambiziosa: creare un sistema di intelligenza artificiale in grado di costruire una rappresentazione interna coerente di un ambiente, prevedere come potrebbe evolvere e consentire a un agente di agire all’interno di quella rappresentazione. Secondo DeepMind, questo tipo di capacità è uno dei mattoni fondamentali sulla strada verso l’intelligenza artificiale generale.
Dal punto di vista tecnico, Project Genie nasce dall’integrazione di più modelli. Al centro c’è Genie 3, che funge da motore del mondo, affiancato dal modello di generazione di immagini Nano Banana Pro e da Gemini. Il processo creativo inizia con quella che viene chiamata fase di “World Sketch”: l’utente descrive con il testo l’ambiente, l’atmosfera e il protagonista, oppure fornisce un’immagine di partenza. Da qui, Nano Banana Pro genera le immagini iniziali e il sistema costruisce un mondo tridimensionale esplorabile, coerente con il prompt fornito.
L’esperienza utente è pensata per essere immediata e creativa. È possibile controllare il personaggio sia in prima sia in terza persona, muoversi all’interno del mondo generato, esplorare ambientazioni create da altri utenti attraverso una galleria curata o remixare mondi esistenti per dare loro una nuova direzione. I mondi non restano confinati all’esperimento: ciò che viene creato può essere scaricato sotto forma di video, rendendo Project Genie uno strumento interessante anche per chi lavora con concept visivi, prototipi narrativi o idee di game design.
Al momento, però, l’accesso è fortemente limitato. Ogni sessione ha una durata massima di 60 secondi, una scelta che DeepMind ha motivato con ragioni sia tecniche sia pratiche. Genie 3 è un modello ad altissima intensità computazionale, basato su un’architettura a trasformatore autoregressivo che richiede, di fatto, un chip dedicato per ciascun utente durante l’esecuzione. Estendere la durata delle sessioni avrebbe un impatto diretto sui costi e sulla scalabilità del servizio. Shlomi Fruchter, direttore della ricerca di DeepMind, ha spiegato che in questa fase la soglia di un minuto rappresenta un compromesso accettabile, perché andare oltre non aumenterebbe in modo significativo il valore del test sperimentale.
DeepMind è stata molto chiara nel definire Project Genie come un prototipo di ricerca, e i limiti attuali lo confermano. I risultati sono particolarmente convincenti quando il sistema lavora con stili artistici illustrativi, come acquerello, animazione o fumetto, dove una certa libertà visiva contribuisce al fascino del mondo generato. Al contrario, il modello incontra maggiori difficoltà quando si cerca un realismo spinto: ambienti fotorealistici o dal taglio cinematografico tendono a mostrare incoerenze, soprattutto quando il mondo è costruito a partire da fotografie reali. In questi casi, elementi come la disposizione dei mobili possono cambiare in modo inatteso o emergere una forte impronta digitale che rompe l’illusione di realtà.
Anche l’interazione ha dei confini evidenti. I personaggi, ad esempio, possono talvolta attraversare muri o oggetti solidi, segno che le regole fisiche del mondo non sono ancora pienamente consolidate. Sono limiti comprensibili in una tecnologia ancora in fase sperimentale, ma che indicano chiaramente quanto lavoro resti da fare prima di arrivare a mondi virtuali davvero stabili e affidabili.
Sul fronte della sicurezza e dei contenuti, Google ha adottato un approccio molto restrittivo. Non è consentito creare mondi che includano nudità, riferimenti a contenuti protetti da copyright o determinati immaginari fantasy. Anche elementi apparentemente innocui, come sirene o regine dei ghiacci, sono soggetti a limitazioni, a dimostrazione di quanto il controllo sui contenuti generativi sia considerato centrale in questa fase di test pubblico.
Un altro aspetto importante riguarda ciò che ancora manca. Alcune funzionalità annunciate con Genie 3, come la possibilità di attivare eventi che modificano il mondo in tempo reale durante l’esplorazione, non sono ancora presenti in Project Genie. DeepMind ha però dichiarato che l’intenzione è di introdurre gradualmente nuove capacità, man mano che il sistema viene affinato e che l’esperienza raccolta dagli utenti contribuisce a orientare lo sviluppo.
Guardando al futuro, l’apertura di Project Genie non è solo un esperimento creativo. Nel breve periodo, DeepMind vede applicazioni evidenti nei videogiochi e nell’industria dell’intrattenimento, dove la creazione rapida di mondi e scenari può rivoluzionare fasi come il concept design e la prototipazione. Nel lungo termine, però, l’obiettivo è molto più ampio: utilizzare questi mondi simulati per addestrare agenti incarnati, come i robot, permettendo loro di apprendere comportamenti complessi in ambienti virtuali prima di trasferirli nel mondo reale.
In questo senso, Project Genie rappresenta una finestra concreta su come potrebbero evolvere i modelli di mondo nei prossimi anni. Pur con tutti i suoi limiti attuali, mostra in modo tangibile cosa significa passare da un’AI che genera contenuti a un’AI che costruisce, esplora e sperimenta mondi. Un passaggio che, secondo Google DeepMind, potrebbe rivelarsi decisivo nel percorso verso sistemi di intelligenza artificiale sempre più generali e autonomi.
