NVIDIA ha presentato ENPIRE (Agentic Robot Policy Self-Improvement in the Real World), un progetto di ricerca che introduce un nuovo approccio all’addestramento robotico basato su agenti AI capaci di apprendere direttamente attraverso sperimentazione fisica, iterazione continua e collaborazione tra più robot. L’obiettivo della piattaforma è superare il tradizionale paradigma della programmazione manuale dei movimenti e consentire ai sistemi robotici di sviluppare autonomamente nuove capacità operative lavorando direttamente su hardware reale.
Il progetto ruota attorno al concetto di AutoResearch, un modello nel quale i robot non ricevono semplicemente istruzioni predefinite ma vengono messi nelle condizioni di comportarsi come ricercatori autonomi. Una volta assegnato un obiettivo, il sistema è in grado di eseguire esperimenti, raccogliere dati, analizzare errori, consultare documentazione tecnica e modificare le proprie strategie operative senza che un ingegnere debba intervenire continuamente per aggiornare il codice o ridefinire i movimenti necessari.
La piattaforma utilizza agenti di programmazione basati su modelli linguistici avanzati ai quali vengono forniti accesso a robot fisici, risorse computazionali GPU e un insieme di API che collegano il sistema AI al mondo reale. Invece di limitarsi a generare codice, gli agenti possono osservare l’ambiente attraverso sensori e telecamere, valutare i risultati ottenuti, modificare algoritmi di controllo e ripetere autonomamente i tentativi fino a raggiungere prestazioni migliori.
Secondo NVIDIA, l’elemento distintivo di ENPIRE consiste proprio nell’esecuzione del ciclo completo di apprendimento direttamente sull’hardware fisico. I robot non operano esclusivamente in simulazione ma interagiscono con oggetti reali, affrontando problemi concreti di precisione, attrito, tolleranze meccaniche e variabilità ambientale che normalmente rappresentano una delle principali difficoltà nello sviluppo della robotica avanzata.
Durante le dimostrazioni pubbliche, il sistema è stato applicato a compiti che richiedono elevata precisione nella manipolazione fisica. Tra questi figurava l’installazione di una scheda grafica all’interno di uno slot PCIe su una scheda madre, un’operazione che richiede allineamento accurato, controllo della forza applicata e capacità di correggere eventuali errori durante l’inserimento. Nel video mostrato da NVIDIA, un robot preleva la scheda grafica mentre un secondo braccio robotico la riceve, la orienta e procede con l’inserimento effettuando microcorrezioni durante il movimento.
La piattaforma è stata inoltre utilizzata per attività come la selezione e l’organizzazione di piccoli perni metallici, la realizzazione di nodi con fascette fermacavo e il taglio in punti specifici. Si tratta di operazioni caratterizzate da elevata sensibilità meccanica e da requisiti di destrezza che tradizionalmente rappresentano una sfida anche per numerosi sistemi industriali specializzati. In questi scenari, il robot non esegue semplicemente una sequenza registrata in precedenza, ma apprende progressivamente come migliorare la propria esecuzione attraverso esperienza diretta.
Per verificare l’efficacia dell’approccio, NVIDIA ha messo a confronto differenti agenti di coding AI all’interno dello stesso ambiente sperimentale. Gli esperimenti hanno coinvolto agenti basati su Codex, Claude Code e Kimi Code, ai quali è stato assegnato il medesimo obiettivo operativo. Ogni agente disponeva di robot fisici, capacità di elaborazione e un budget di token per sviluppare autonomamente strategie di apprendimento e risoluzione dei problemi.
Uno degli aspetti più interessanti emersi dalla ricerca riguarda la scalabilità dell’apprendimento collettivo. NVIDIA ha osservato che aumentando il numero di robot impegnati contemporaneamente sullo stesso problema, la velocità di miglioramento cresce in modo significativo. Quando più robot eseguono tentativi in parallelo, infatti, ciascuno accumula esperienza indipendente che può essere condivisa con gli altri agenti del sistema. Questo approccio consente di esplorare simultaneamente molteplici strategie operative e di convergere più rapidamente verso soluzioni efficaci.
ENPIRE introduce una forma di apprendimento distribuito in cui i robot diventano generatori continui di dati sperimentali. Gli errori non vengono considerati semplici fallimenti ma diventano materiale utile per aggiornare politiche di controllo, strategie di manipolazione e modelli decisionali. Ogni tentativo contribuisce ad arricchire la base di conoscenza condivisa dall’intero sistema, creando un processo di miglioramento continuo che ricorda il funzionamento di gruppi di ricerca umani impegnati nella risoluzione di problemi complessi.
