Gli esseri umani utilizzano comportamenti espressivi per comunicare obiettivi e intenzioni. Questi comportamenti includono annuire per riconoscere la presenza di qualcuno, scuotere la testa per trasmettere una risposta negativa e utilizzare espressioni come “scusami” per chiedere agli altri di fare spazio. Questi segnali comunicativi sono fondamentali nelle interazioni sociali.
Nel campo della robotica, l’integrazione di tali comportamenti espressivi nei robot mobili rappresenta una sfida importante. Le soluzioni attuali sono spesso rigide e limitate nella loro adattabilità. Un nuovo studio condotto da ricercatori dell’Università di Toronto, Google DeepMind e Hoku Labs propone una soluzione chiamata GenEM, che sfrutta il vasto contesto sociale disponibile nei modelli linguistici di grandi dimensioni (LLM) per creare comportamenti espressivi per i robot.
GenEM è una tecnica versatile che può adattarsi al feedback umano e a diversi tipi di robot. A differenza dei tradizionali sistemi basati su regole o modelli, che richiedono un lavoro manuale significativo e sono rigidi nell’adattamento a nuove situazioni, GenEM sfrutta l’ampia conoscenza incorporata negli LLM per generare dinamicamente comportamenti espressivi, senza la necessità di addestrare modelli di apprendimento automatico o definire lunghe liste di regole.
La tecnica GenEM utilizza una sequenza di agenti LLM per generare comportamenti espressivi dei robot a partire da istruzioni in linguaggio naturale. Ogni agente LLM svolge un ruolo specifico nel ragionare sul contesto sociale e nel mappare il comportamento desiderato sulle chiamate API del robot. GenEM è in grado di produrre comportamenti multimodali che utilizzano le potenzialità del robot, come il linguaggio, il movimento del corpo e le caratteristiche visive, per esprimere in modo efficace l’intento del robot.
La pipeline GenEM inizia con un’istruzione in linguaggio naturale, che può essere un comportamento specifico o una descrizione del contesto sociale in cui il robot deve interagire. Gli agenti LLM eseguono un ragionamento per tradurre il comportamento umano in una procedura dettagliata basata sulle funzionalità del robot. Questa procedura viene poi mappata in codice eseguibile basato sugli API del robot. GenEM può anche accogliere il feedback umano e aggiornare i comportamenti espressivi in base alle correzioni iterative.
I risultati dei test hanno dimostrato che i comportamenti generati da GenEM sono comprensibili quanto quelli scritti da un animatore professionista. Inoltre, l’approccio modulare e in più fasi utilizzato da GenEM si è dimostrato migliore rispetto all’utilizzo di un singolo LLM per tradurre direttamente le istruzioni nel comportamento del robot.
Un vantaggio significativo di GenEM è che è indipendente dal tipo di robot a cui viene applicato, eliminando la necessità di addestrare il modello su set di dati specializzati. Tuttavia, GenEM è ancora nelle prime fasi di sviluppo e richiede ulteriori studi, specialmente per esplorare scenari di interazione più complessi e spazi di azione più ampi. In generale, questa tecnica offre una struttura flessibile per generare comportamenti espressivi nei robot, sfruttando la potenza dei modelli linguistici di grandi dimensioni.