Ricercatori di Meta AI e della New York University hanno sviluppato un nuovo sistema, chiamato OK-Robot, che integra modelli di apprendimento automatico (ML) per migliorare le capacità dei robot in ambienti sconosciuti. Questo sistema è particolarmente importante in quanto i robot, tradizionalmente, hanno difficoltà a generalizzare le loro capacità oltre gli ambienti in cui sono stati addestrati.
OK-Robot utilizza una tecnologia chiamata modelli del linguaggio visivo (VLM) per abbinare le istruzioni in linguaggio naturale agli oggetti in una scena visiva. Il sistema combina questa tecnologia con modelli di pianificazione del movimento e manipolazione degli oggetti per permettere ai robot di eseguire operazioni di prelievo e rilascio di oggetti senza necessità di formazione specifica per ogni nuovo ambiente.
Il sistema si basa su tre sottosistemi principali: un modulo di navigazione che utilizza un vocabolario aperto per identificare oggetti, un modulo di presa che sfrutta immagini RGB-D, e un sistema euristico di rilascio. Per funzionare, OK-Robot richiede una scansione manuale dell’ambiente attraverso un’app per iPhone, che crea una mappa 3D dell’area.
Dopo la scansione, il sistema elabora le immagini per identificare gli oggetti e crea un modulo di memoria semantica. Quando riceve una richiesta in linguaggio naturale, il sistema trova l’oggetto corrispondente e guida il robot al suo percorso, evitando collisioni e utilizzando una telecamera RGB-D per raccogliere l’oggetto.
I ricercatori hanno testato OK-Robot in diverse case, ottenendo un tasso di successo del 58% nel completamento delle attività di prelievo e rilascio, che sale all’82% con miglioramenti nelle query e nell’organizzazione degli spazi.
Nonostante alcune limitazioni, come la difficoltà di adattarsi a cambiamenti nell’ambiente dopo la scansione iniziale, OK-Robot rappresenta un passo significativo nella ricerca robotica. Dimostra l’efficacia dei VLM nel riconoscimento di oggetti e nell’approccio zero-shot, dove i modelli non richiedono addestramento specifico per ogni nuovo ambiente. Questo progetto apre la strada a ulteriori ricerche e miglioramenti nel campo della robotica.