Google DeepMind ha presentato Genie, un nuovo modello di intelligenza artificiale progettato per trasformare descrizioni di testo, schizzi e fotografie in ambienti virtuali interattivi. Con un’architettura contenente 11 miliardi di parametri, Genie è stato addestrato su 200.000 ore di video Internet non etichettati, consentendo di comprendere e replicare dinamiche ambientali senza la necessità di etichettatura manuale dei dati.
Tim Rocktäschel, il capo del team di Genie, ha condiviso su X: “Piuttosto che incorporare pregiudizi induttivi, ci siamo concentrati sulla scala. Attraverso l’apprendimento non supervisionato, Genie è in grado di acquisire una vasta gamma di azioni latenti che controllano i personaggi in modo coerente”.
Questo approccio ha permesso a Genie di apprendere in modo dinamico una vasta gamma di movimenti, controlli e azioni dei personaggi. Come spiegato da Rocktäschel, “il nostro modello è in grado di trasformare qualsiasi immagine in un mondo 2D giocabile”.
Il funzionamento di Genie si basa su un tokenizzatore video spaziotemporale, che analizza i video per comprendere il movimento nel tempo. Successivamente, il modello predittivo della dinamica autoregressiva anticipa gli sviluppi successivi nell’ambiente virtuale basandosi su questa analisi. Infine, un modello di azione latente genera possibili azioni all’interno del mondo virtuale che non sono state direttamente osservate durante il processo di addestramento.
Sebbene Genie sia attualmente una ricerca e non sia chiaro se diventerà un prodotto reale, le sue potenziali applicazioni vanno oltre l’intrattenimento nella realtà virtuale. Tra queste ci sono simulazioni di formazione, progettazione architettonica, pianificazione urbana e altro ancora.
Con Genie, DeepMind si espande ulteriormente nel campo visivo dell’intelligenza artificiale, consentendo nuove forme di espressione creativa ed esperienze interattive. Precedentemente, Google DeepMind aveva rilasciato Dreamer V2 e V3, che si concentrano sull’apprendimento attraverso le interazioni all’interno degli ambienti per migliorare la pianificazione e il comportamento orientato agli obiettivi. A differenza di Genie, che impara e si basa su dati video, i modelli Dreamer richiedono dati di interazione per apprendere, distinguendosi per il loro approccio nella comprensione e nella creazione di mondi virtuali.