Per decenni, il progresso nell’Intelligenza Artificiale è stato misurato dalla capacità dei sistemi di eccellere in ambienti circoscritti e governati da regole rigide, come gli scacchi o il Go. Tuttavia, la frontiera della ricerca si sta spostando verso la creazione di agenti AI che siano in grado di navigare, comprendere e agire in mondi aperti, dinamici e realistici. In questo contesto ambizioso, Google DeepMind ha svelato SIMA (acronimo per Scalable, Instructable, Multi-world Agent), un agente di intelligenza artificiale progettato non solo per imparare, ma per interagire in ambienti virtuali tridimensionali complessi con una versatilità paragonabile a quella di un giocatore umano.
SIMA non è un modello addestrato per un singolo compito, ma un agente generalista. La sua architettura è stata concepita per affrontare la sfida della generalizzazione, ovvero la capacità di applicare conoscenze e strategie acquisite in un ambiente a contesti completamente nuovi. Per raggiungere questo obiettivo rivoluzionario, DeepMind ha sottoposto SIMA a un addestramento massiccio e senza precedenti. L’agente ha assimilato circa dieci miliardi di token di dati linguistici e visivi, attingendo a oltre trentamila ore di gameplay registrate in una varietà sorprendente di titoli commerciali. Questo dataset onnicomprensivo spazia da mondi di sopravvivenza e costruzione come Valheim a sandbox basati sulla fisica come Teardown, garantendo che SIMA abbia interiorizzato un ampio spettro di meccaniche e interazioni 3D.
Il vero potere di SIMA risiede nella sua capacità di essere istruibile attraverso il linguaggio naturale. A differenza di un bot di gioco convenzionale che segue una programmazione rigida, un utente può impartire a SIMA istruzioni in linguaggio semplice e quotidiano—come “Trovami una roccia”, “Costruisci un falò” o “Apri la porta”—e l’agente è in grado di tradurre queste richieste in azioni coerenti all’interno del suo ambiente virtuale. Il sistema combina la percezione dell’input visivo in tempo reale con l’istruzione linguistica per comprendere l’obiettivo e navigare nello spazio 3D, utilizzando come spazio di azione le semplici interfacce di input da tastiera e mouse.
La scelta di utilizzare gli ambienti dei videogiochi come laboratorio di ricerca è strategica. Essi offrono mondi virtuali che, pur essendo strutturati, sono sufficientemente aperti, complessi e ricchi di opportunità di interazione per simulare le sfide del mondo reale, ma senza i costi e i rischi della robotica fisica. Sviluppando modelli di “agenti fondamentali” per ambienti 3D, simili ai modelli linguistici fondamentali (LLM) per il testo, DeepMind sta costruendo il ponte tra la comprensione linguistica e l’azione fisica.
Le implicazioni della ricerca su SIMA vanno ben oltre l’industria videoludica. La capacità di un’intelligenza artificiale di comprendere istruzioni in linguaggio naturale e di agire in modo mirato e adattabile in ambienti tridimensionali ha risonanze profonde nel campo della robotica, dove tali agenti potrebbero un giorno controllare robot fisici con la stessa facilità con cui ora controllano avatar virtuali. Inoltre, SIMA rappresenta un passo cruciale verso la creazione di assistenti AI per interazioni complesse in ambienti di simulazione, realtà virtuale e digital twin, migliorando l’efficacia delle formazioni o della progettazione ingegneristica. In definitiva, l’agente SIMA segna un punto di svolta, inaugurando l’era in cui l’AI non si limita a generare contenuti, ma a prendere decisioni contestuali e ad agire in modo significativo in un mondo fisico o virtuale.
