Il campo della robotica sta vivendo una trasformazione profonda, passando dai sistemi programmati per compiti specifici a entità capaci di apprendere dall’osservazione del mondo circostante. In questo contesto, NVIDIA ha recentemente svelato DreamDojo, un “modello di mondo” rivoluzionario che promette di risolvere uno dei problemi più complessi dell’intelligenza artificiale applicata al fisico: la scarsità di dati di addestramento. Invece di fare affidamento esclusivamente su migliaia di ore di laboriose manovre telecomandate, DreamDojo impara a “capire” la realtà osservando video di attività umane quotidiane, trasformando i pixel in una profonda conoscenza della fisica e del movimento.
Il cuore di DreamDojo risiede in un dataset di dimensioni senza precedenti. NVIDIA ha utilizzato oltre 44.000 ore di video egocentrici, ovvero riprese effettuate dal punto di vista umano durante lo svolgimento di normali azioni giornaliere. Questa vasta mole di dati permette al modello di acquisire quella che i ricercatori definiscono una “comprensione dei meccanismi del mondo”. Osservando come un essere umano afferra un oggetto, apre una porta o manipola strumenti, l’intelligenza artificiale impara implicitamente le leggi della fisica, la resistenza dei materiali e le traiettorie ottimali, senza che sia necessario etichettare ogni singolo movimento con istruzioni tecniche precise.
A differenza dei modelli tradizionali, DreamDojo agisce come un simulatore interno. È in grado di “immaginare” o prevedere come cambierà l’ambiente in risposta a una determinata azione. Se un robot decide di spingere una tazza, il modello può visualizzare in anticipo le possibili conseguenze visive di quel gesto. Questa capacità di simulazione permette ai robot di testare migliaia di scenari nella loro “mente” digitale prima di eseguire il movimento nel mondo reale. Il sistema utilizza un approccio innovativo basato su azioni latenti continue, che fungono da ponte tra le immagini video e i comandi motori dei robot umanoidi, permettendo alla macchina di tradurre ciò che vede in ciò che deve fare con le proprie articolazioni.
Uno degli aspetti più sorprendenti di DreamDojo è la sua capacità di generalizzazione “zero-shot”. Questo significa che un robot addestrato con questo modello può trovarsi di fronte a oggetti mai visti prima o in ambienti completamente nuovi ed essere comunque in grado di interagire in modo efficace. La tecnologia è stata testata con successo su diverse piattaforme robotiche, tra cui gli umanoidi GR-1 e AgiBot, dimostrando una flessibilità che supera i metodi precedenti. Inoltre, grazie a un processo di distillazione del software, il modello è in grado di operare in tempo reale, garantendo reazioni fluide e immediate alle variazioni del contesto, un requisito fondamentale per la sicurezza e l’efficienza nelle interazioni tra robot e umani.
L’introduzione di DreamDojo apre la strada a una nuova generazione di robot capaci di svolgere compiti “contact-rich”, ovvero attività che richiedono un tocco delicato e una gestione precisa della forza, come martellare un chiodo o piegare tessuti. La visione di NVIDIA non è solo quella di creare macchine più intelligenti, ma di spostare il paradigma dell’apprendimento robotico: dalla raccolta manuale di dati su ogni singolo compito alla scalabilità offerta dalla potenza di calcolo delle GPU. In questo modo, l’intelligenza artificiale non si limita più a elaborare testi o immagini su uno schermo, ma diventa una “Physical AI” capace di abitare e comprendere lo spazio fisico in cui viviamo.
