L’intelligenza artificiale sta attraversando una fase in cui l’attenzione si sposta progressivamente dai modelli linguistici verso sistemi capaci di comprendere e simulare il mondo fisico. In questo scenario si inserisce il nuovo “world model” sviluppato dal team guidato da Yann LeCun, progettato per apprendere dinamiche fisiche direttamente da dati visivi e, soprattutto, per funzionare su una singola GPU. L’iniziativa rappresenta un cambio di paradigma rispetto alla corsa alla scalabilità estrema che ha caratterizzato i modelli generativi negli ultimi anni e suggerisce un percorso alternativo verso sistemi più efficienti e orientati alla comprensione del mondo reale.
Il modello, denominato LeWorldModel, si basa su una architettura compatta che riduce drasticamente i requisiti computazionali. Le informazioni disponibili indicano che il sistema contiene circa 15 milioni di parametri, una dimensione estremamente contenuta rispetto ai modelli moderni, e può essere addestrato su una singola GPU in poche ore. Questa scelta progettuale consente di democratizzare l’accesso ai world model, che tradizionalmente richiedevano infrastrutture di calcolo molto più ampie e costose.
Il concetto di world model rappresenta un approccio differente rispetto ai modelli basati esclusivamente sul linguaggio. Invece di prevedere la parola successiva, questi sistemi apprendono una rappresentazione interna del mondo, includendo relazioni fisiche come movimento, collisioni e causalità. L’obiettivo è permettere all’intelligenza artificiale di simulare scenari e pianificare azioni in modo più simile al comportamento umano. Questo tipo di architettura viene considerato da molti ricercatori come una componente fondamentale per l’evoluzione verso sistemi capaci di ragionamento situato e interazione con l’ambiente fisico.
LeWorldModel utilizza una Joint Embedding Predictive Architecture, una struttura che apprende rappresentazioni latenti del mondo direttamente dai pixel. Il modello prevede l’evoluzione dello stato dell’ambiente invece di generare sequenze simboliche, riducendo la complessità computazionale e migliorando la stabilità dell’addestramento. La versione proposta introduce una semplificazione significativa della funzione di perdita, riducendo il numero di iperparametri necessari e consentendo un training end-to-end più robusto.
LeWorldModel è in grado di pianificare azioni fino a 48 volte più velocemente rispetto ad alcuni world model basati su foundation model, mantenendo al tempo stesso risultati competitivi in compiti di controllo e simulazione. Questa velocità deriva dalla capacità di operare in uno spazio latente compatto, evitando la generazione esplicita di immagini o sequenze ad alta dimensionalità durante la fase di pianificazione.
La possibilità di eseguire il modello su una singola GPU introduce implicazioni importanti per la robotica e i sistemi autonomi. I world model sono infatti utilizzati per addestrare agenti che devono prendere decisioni in ambienti complessi, simulando scenari prima di agire nel mondo reale. Questa capacità consente di ridurre i costi e i rischi associati all’apprendimento diretto su hardware fisico, rendendo più accessibile lo sviluppo di robot autonomi e sistemi di guida intelligente.
L’approccio proposto da LeCun si colloca in una visione più ampia che mette in discussione la centralità dei modelli linguistici come unica strada verso l’intelligenza generale. Secondo questa prospettiva, l’intelligenza artificiale deve sviluppare una comprensione del mondo fisico e della causalità per raggiungere livelli più avanzati di ragionamento. I world model rappresentano quindi il livello di pianificazione che potrebbe integrare o affiancare i modelli linguistici, creando sistemi cognitivi più completi.
Il modello utilizza meno token e meno risorse rispetto ad architetture tradizionali, dimostrando che la comprensione del mondo può emergere anche da modelli compatti se la struttura è progettata per catturare relazioni causali. Questa direzione contrasta con l’approccio dominante basato su modelli sempre più grandi e suggerisce che l’efficienza architetturale potrebbe diventare un fattore competitivo chiave.
