Un modo più semplice per insegnare ai robot nuove abilità
I ricercatori hanno sviluppato una tecnica che consente a un robot di apprendere un nuovo compito di pick-and-place con solo una manciata di dimostrazioni umane.

Rapporti e atti MIT ISTITUTO DI TECNOLOGIA DEL MASSACHUSSETTS

 

 
IMMAGINE: I RICERCATORI DEL MIT HANNO SVILUPPATO UN SISTEMA CHE CONSENTE A UN ROBOT DI APPRENDERE UN NUOVO COMPITO DI PICK-AND-PLACE BASATO SOLO SU UNA MANCIATA DI ESEMPI UMANI. CIÒ POTREBBE CONSENTIRE A UN ESSERE UMANO DI RIPROGRAMMARE UN ROBOT PER AFFERRARE OGGETTI MAI VISTI PRIMA, PRESENTATI IN POSE CASUALI, IN CIRCA 15 MINUTI. 

CREDITO: IMMAGINE PER GENTILE CONCESSIONE DI ANTHONY SIMEONOV, YILUN DU, PULKIT AGRAWAL, ET AL.
Con gli ordini di e-commerce in arrivo, un robot di magazzino preleva le tazze da uno scaffale e le mette in scatole per la spedizione. Tutto ronza, fino a quando il magazzino non elabora un cambiamento e il robot deve ora afferrare tazze più alte e più strette che vengono conservate capovolte.

 

La riprogrammazione di quel robot implica l’etichettatura manuale di migliaia di immagini che mostrano come afferrare queste nuove tazze, quindi addestrare nuovamente il sistema.

 

Ma una nuova tecnica sviluppata dai ricercatori del MIT richiederebbe solo una manciata di dimostrazioni umane per riprogrammare il robot. Questo metodo di apprendimento automatico consente a un robot di raccogliere e posizionare oggetti mai visti prima che si trovano in pose casuali che non ha mai incontrato. Entro 10-15 minuti, il robot sarebbe pronto per eseguire una nuova attività di pick-and-place.

 

La tecnica utilizza una rete neurale specificamente progettata per ricostruire le forme di oggetti 3D. Con poche dimostrazioni, il sistema utilizza ciò che la rete neurale ha appreso sulla geometria 3D per cogliere nuovi oggetti simili a quelli delle demo.

 

Nelle simulazioni e utilizzando un vero braccio robotico, i ricercatori mostrano che il loro sistema può manipolare efficacemente tazze, ciotole e bottiglie mai viste prima, disposte in pose casuali, utilizzando solo 10 dimostrazioni per insegnare al robot.

 

“Il nostro principale contributo è la capacità generale di fornire in modo molto più efficiente nuove competenze ai robot che devono operare in ambienti più non strutturati in cui potrebbe esserci molta variabilità. Il concetto di generalizzazione per costruzione è una capacità affascinante perché questo problema è in genere molto più difficile”, afferma Anthony Simeonov, uno studente laureato in ingegneria elettrica e informatica (EECS) e co-autore principale dell’articolo.

 

Simeonov ha scritto l’ articolo con l’autore principale Yilun Du, uno studente laureato EECS; Andrea Tagliasacchi, ricercatore presso Google Brain; Joshua B. Tenenbaum, Professore di Scienze Cognitive e Calcolo per lo sviluppo professionale di Paul E. Newton presso il Dipartimento di Scienze cerebrali e cognitive e membro del Computer Science and Artificial Intelligence Laboratory (CSAIL); Alberto Rodriguez, Professore Associato Classe 1957 presso il Dipartimento di Ingegneria Meccanica; e gli autori senior Pulkit Agrawal, un professore in CSAIL, e Vincent Sitzmann, un assistente professore in EECS. La ricerca sarà presentata alla Conferenza Internazionale sulla Robotica e l’Automazione.

 

Cogliere la geometria

 

Un robot può essere addestrato a raccogliere un oggetto specifico, ma se quell’oggetto è sdraiato su un lato (forse è caduto), il robot lo vede come uno scenario completamente nuovo. Questo è uno dei motivi per cui è così difficile per i sistemi di apprendimento automatico generalizzare a nuovi orientamenti agli oggetti.

 

Per superare questa sfida, i ricercatori hanno creato un nuovo tipo di modello di rete neurale, un Neural Descriptor Field (NDF), che apprende la geometria 3D di una classe di elementi. Il modello calcola la rappresentazione geometrica di un elemento specifico utilizzando una nuvola di punti 3D, che è un insieme di punti dati o coordinate in tre dimensioni. I punti dati possono essere ottenuti da una telecamera di profondità che fornisce informazioni sulla distanza tra l’oggetto e un punto di vista. Sebbene la rete sia stata addestrata alla simulazione su un ampio set di dati di forme 3D sintetiche, può essere applicata direttamente agli oggetti nel mondo reale.

 

Il team ha progettato l’NDF con una proprietà nota come equivarianza. Con questa proprietà, se al modello viene mostrata l’immagine di una tazza verticale, e poi mostrata un’immagine della stessa tazza su un lato, capisce che la seconda tazza è lo stesso oggetto, appena ruotato.

 

“Questa equivarianza è ciò che ci consente di gestire in modo molto più efficace i casi in cui l’oggetto che osservi si trova in un orientamento arbitrario”, afferma Simeonov.

 

Man mano che l’NDF impara a ricostruire le forme di oggetti simili, impara anche ad associare parti correlate di quegli oggetti. Ad esempio, apprende che i manici delle tazze sono simili, anche se alcune tazze sono più alte o più larghe di altre, o hanno manici più piccoli o più lunghi.

 

“Se volevi farlo con un altro approccio, dovresti etichettare a mano tutte le parti. Invece, il nostro approccio scopre automaticamente queste parti dalla ricostruzione della forma”, afferma Du.

 

I ricercatori usano questo modello NDF addestrato per insegnare a un robot una nuova abilità con solo pochi esempi fisici. Spostano la mano del robot sulla parte di un oggetto che vogliono che afferri, come il bordo di una ciotola o il manico di una tazza, e registrano la posizione dei polpastrelli.

 

Poiché l’NDF ha imparato così tanto sulla geometria 3D e su come ricostruire le forme, può dedurre la struttura di una nuova forma, che consente al sistema di trasferire le dimostrazioni a nuovi oggetti in pose arbitrarie, spiega Du.

 

Scegliere un vincitore

 

Hanno testato il loro modello in simulazioni e su un vero braccio robotico utilizzando tazze, ciotole e bottiglie come oggetti. Il loro metodo ha avuto una percentuale di successo dell’85% nelle attività pick-and-place con nuovi oggetti in nuovi orientamenti, mentre la migliore linea di base è stata in grado di raggiungere solo una percentuale di successo del 45%. Il successo significa afferrare un nuovo oggetto e posizionarlo in una posizione target, come appendere le tazze su uno scaffale.

 

Molte linee di base utilizzano le informazioni sull’immagine 2D anziché la geometria 3D, il che rende più difficile per questi metodi l’integrazione dell’equivarianza. Questo è uno dei motivi per cui la tecnica NDF ha funzionato molto meglio.

 

Sebbene i ricercatori fossero contenti delle sue prestazioni, il loro metodo funziona solo per la particolare categoria di oggetti su cui è stato addestrato. Un robot a cui è stato insegnato a raccogliere tazze non sarà in grado di raccogliere scatole o cuffie, poiché questi oggetti hanno caratteristiche geometriche troppo diverse da quelle su cui è stata addestrata la rete.

 

“In futuro, estenderlo a molte categorie o abbandonare completamente la nozione di categoria sarebbe l’ideale”, afferma Simeonov.

 

Hanno anche in programma di adattare il sistema per oggetti non rigidi e, a lungo termine, consentire al sistema di eseguire attività di prelievo e posizionamento quando l’area di destinazione cambia.

 

Questo lavoro è supportato, in parte, dalla Defense Advanced Research Projects Agency, dalla Singapore Defense Science and Technology Agency e dalla National Science Foundation.

 

Scritto da Adam Zewe, MIT News Office

Di ihal