Gli agenti di intelligenza artificiale (IA) incarnati, capaci di interagire con il mondo fisico, offrono enormi opportunità in vari settori. Tuttavia, uno dei principali ostacoli è la scarsità di dati per l’addestramento. Per affrontare questo problema, i ricercatori dell’Imperial College di Londra e di Google DeepMind hanno sviluppato i Diffusion Augmented Agents (DAAG), un nuovo framework che utilizza modelli linguistici, modelli visivi e modelli di diffusione per migliorare l’efficienza dell’apprendimento degli agenti incarnati.
Negli ultimi anni, i modelli linguistici (LLM) e i modelli linguistici visivi (VLM) hanno fatto grandi progressi, suscitando speranze per la loro applicazione nella robotica. Tuttavia, mentre questi modelli possono essere addestrati con enormi set di dati digitali, gli agenti incarnati devono apprendere interagendo con ambienti fisici molto complessi e imprevedibili. I robot, infatti, utilizzano sensori e attuatori che possono essere lenti, rumorosi e soggetti a guasti.
Per superare questi ostacoli, è fondamentale sfruttare al meglio i dati e l’esperienza accumulata.
Il framework Diffusion Augmented Agent (DAAG) è stato creato per migliorare l’efficienza degli agenti nell’apprendimento di nuovi compiti utilizzando esperienze passate e generando dati sintetici. DAAG consente agli agenti di stabilire e valutare autonomamente sotto-obiettivi, anche senza ricompense esterne, e di riutilizzare le conoscenze pregresse per apprendere nuovi compiti in modo più rapido.
DAAG opera all’interno di un Markov Decision Process (MDP). L’agente riceve istruzioni per un compito all’inizio di ogni episodio, osserva l’ambiente, compie azioni e cerca di raggiungere uno stato che rispecchi l’obiettivo. Dispone di due buffer di memoria: uno specifico per il compito attuale e uno “offline permanente” per le esperienze passate.
DAAG combina LLM, VLM e modelli di diffusione per migliorare le capacità di apprendimento degli agenti. L’LLM gestisce l’agente, interpretando le istruzioni e suddividendole in sotto-obiettivi, mentre il VLM e il modello di diffusione forniscono riferimenti visivi e dati sintetici.
Quando il buffer di esperienza dell’agente non contiene osservazioni utili, il modello di diffusione genera dati sintetici che aiutano l’agente a immaginare stati desiderati. Questo consente all’agente di esplorare opzioni senza interagire fisicamente con l’ambiente.
DAAG è stato testato su vari benchmark e ambienti simulati, dimostrando miglioramenti significativi rispetto ai sistemi di apprendimento di rinforzo tradizionali. Gli agenti basati su DAAG hanno raggiunto obiettivi più rapidamente e con meno interazione fisica, e hanno riutilizzato efficacemente le esperienze passate per accelerare l’apprendimento di nuovi compiti.
La capacità di trasferire conoscenze tra attività è cruciale per sviluppare agenti che apprendano in modo continuo e si adattino a nuove situazioni. Il successo di DAAG nel migliorare l’efficienza dell’apprendimento potrebbe portare a robot e sistemi di intelligenza artificiale più robusti e adattabili.