Mentre il mondo si entusiasma per le capacità del nuovo GPT-4o-mini, i ricercatori stanno esplorando come le tecniche avanzate di ragionamento possano migliorare i modelli di base per i robot. In particolare, stanno cercando di adattare il metodo di “Chain-of-Thought” (CoT), che ha dimostrato di essere molto efficace nei modelli di linguaggio, ai modelli di visione-linguaggio-azione (VLA) per i robot.
Il “Chain-of-Thought” è una tecnica che aiuta i modelli di linguaggio a risolvere problemi complessi suddividendo il processo in passaggi concreti. Ora, i ricercatori delle Università di California, Berkeley, Varsavia e Stanford hanno introdotto un nuovo approccio chiamato “Embodied Chain-of-Thought Reasoning” (ECoT), progettato per migliorare le capacità decisionali dei robot.
L’obiettivo dei modelli di controllo robotico è far sì che i robot possano svolgere compiti complessi autonomamente. Sebbene siano stati fatti notevoli progressi con modelli di controllo end-to-end, questi spesso falliscono in situazioni nuove che richiedono pianificazione e ragionamento. I modelli VLA, che combinano visione e linguaggio, sono una soluzione promettente perché possono mappare le osservazioni visive e le istruzioni in linguaggio naturale alle azioni dei robot. Tuttavia, questi modelli non hanno ancora la capacità di ragionare come i modelli di linguaggio più avanzati.
Il ragionamento “Chain-of-Thought” è stato molto efficace nel migliorare le prestazioni dei modelli di linguaggio. Questo approccio prevede la generazione di passaggi intermedi che aiutano a comprendere meglio le relazioni tra diverse parti di un problema, portando a soluzioni più precise.
I ricercatori ipotizzano che applicare una tecnica simile ai modelli VLA possa migliorare la loro capacità di eseguire compiti complessi. Tuttavia, ci sono delle sfide: i modelli VLA sono basati su architetture più piccole rispetto ai grandi modelli di linguaggio e devono considerare non solo il compito, ma anche l’ambiente e lo stato del robot.
Per affrontare queste sfide, è stato sviluppato l’ECoT. Questa tecnica combina il ragionamento semantico sui compiti e sotto-compiti con il ragionamento “incarnato” che considera l’ambiente e lo stato del robot. Questo approccio include la previsione delle posizioni degli oggetti e la comprensione delle relazioni spaziali, rendendo le azioni del robot più accurate.
Per addestrare i modelli VLA con ECoT, i ricercatori hanno creato una pipeline per generare dati di training sintetici. Questo processo utilizza modelli di visione e linguaggio per annotare i dati esistenti e migliorare il ragionamento del robot.
I risultati mostrano che l’ECoT migliora significativamente le prestazioni dei modelli VLA, aumentando il tasso di successo delle attività del 28% rispetto ai modelli di base. Inoltre, il metodo facilita la comprensione degli errori, poiché i passaggi di ragionamento sono espressi in linguaggio naturale.