La società di robotica avanzata Physical Intelligence ha presentato un innovativo sistema denominato Hierarchical Interactive Robot (Hi Robot). Questo sistema è progettato per migliorare la capacità dei robot di comprendere e eseguire istruzioni complesse, permettendo loro di “pensare” alle proprie azioni in modo simile agli esseri umani.​

Hi Robot si basa su modelli visivo-linguistici (Vision-Language Models, VLM) organizzati in una struttura gerarchica. Questo design consente ai robot di scomporre compiti complessi in passaggi più semplici, facilitando l’esecuzione di attività articolate. L’ispirazione deriva dai concetti di “Sistema 1” e “Sistema 2” descritti dallo psicologo Daniel Kahneman: il “Sistema 1” rappresenta processi mentali rapidi e automatici, mentre il “Sistema 2” coinvolge un pensiero più lento e deliberato. In questo contesto, Hi Robot utilizza un VLM di alto livello per ragionare su comandi complessi e un VLM di basso livello per eseguire le azioni. ​

Per insegnare ai robot a gestire istruzioni multi-step, i ricercatori di Physical Intelligence hanno utilizzato dati sintetici. Creando set di dati che abbinano le osservazioni dei robot a scenari ipotetici e feedback umano, il sistema ha imparato a interpretare e rispondere a comandi complessi. Questa metodologia ha permesso a Hi Robot di superare altri modelli, come GPT-4o e politiche VLA tradizionali, mostrando un’accuratezza del 40% superiore nel seguire le istruzioni e adattarsi alle correzioni in tempo reale. ​

Una caratteristica distintiva di Hi Robot è la sua abilità di “parlare a se stesso” durante l’esecuzione di compiti. Questo significa che il robot può elaborare comandi complessi e feedback in linguaggio naturale, scomponendoli in azioni più semplici che può eseguire in sequenza. Ad esempio, durante la pulizia di un tavolo, se l’utente interviene dicendo “quello non è spazzatura”, il robot è in grado di comprendere il contesto e modificare il suo comportamento di conseguenza, evitando di eliminare l’oggetto indicato. ​

Hi Robot è stato testato su diverse piattaforme robotiche, tra cui robot a braccio singolo, doppio e mobili, eseguendo compiti come la pulizia di tavoli, la preparazione di panini e la spesa. La capacità del sistema di gestire istruzioni complesse e adattarsi al feedback in tempo reale apre nuove possibilità per l’integrazione dei robot in ambienti domestici e professionali. I ricercatori prevedono di affinare ulteriormente il sistema combinando i modelli di alto e basso livello, permettendo una gestione ancora più adattiva dei compiti complessi.

Di Fantasy