In un nuovo studio condotto da scienziati di Nvidia, Università della Pennsylvania e Università del Texas, Austin, è emerso che i grandi modelli linguistici (LLM) possono migliorare notevolmente l’addestramento dei robot in modi straordinari.
Lo studio presenta DrEureka, una tecnica che consente di generare automaticamente funzioni di ricompensa e distribuzioni randomizzate per i robot. Questa tecnica, abbreviata come “randomizzazione del dominio Eureka”, richiede solo una descrizione generale dell’attività target ed è più veloce ed efficiente delle ricompense progettate manualmente per far sì che i robot imparino da ambienti simulati e operino nel mondo reale.
Questo è un passo significativo nell’ambito della robotica, che ultimamente ha beneficiato dei progressi nei modelli linguistici e visivi. Solitamente, quando si progettano robot per nuovi compiti, si addestra una politica in un ambiente simulato e poi la si applica nel mondo reale. Tuttavia, la differenza tra simulazione e mondo reale, chiamata “divario sim-to-real”, è una grande sfida. DrEureka mira a risolvere questo problema utilizzando i LLM per automatizzare il processo di trasferimento dalla simulazione alla realtà.
DrEureka si basa su una tecnica precedente chiamata Eureka, introdotta nell’ottobre 2023. Eureka utilizza un LLM per generare funzioni di ricompensa per misurare il successo in un’attività robotica. DrEureka va oltre, automatizzando anche i parametri di randomizzazione del dominio, che consentono alle politiche apprese di adattarsi a perturbazioni impreviste nel mondo reale.
In pratica, DrEureka utilizza un processo a più fasi per semplificare l’ottimizzazione delle funzioni di ricompensa e dei parametri di randomizzazione del dominio. Questo metodo ha dimostrato risultati significativi nel migliorare le prestazioni dei robot, ad esempio aumentando la velocità di avanzamento e la distanza percorsa su vari terreni reali.
Gli esperimenti condotti hanno incluso piattaforme manipolatrici e abili, dimostrando che DrEureka può essere applicato a diversi tipi di robot e compiti. Inoltre, è stata testata anche su un compito insolito: far stare in equilibrio un cane robot e farlo camminare su una palla da yoga, con risultati sorprendenti.
Questo studio sottolinea l’importanza delle istruzioni di sicurezza nella descrizione delle attività per garantire che i LLM generino istruzioni logiche trasferibili nel mondo reale. In definitiva, DrEureka mostra il potenziale per accelerare la ricerca sull’apprendimento dei robot, utilizzando modelli linguistici per automatizzare aspetti complessi della progettazione delle competenze di basso livello.