In uno degli ultimi sviluppi nel campo della robotica, i ricercatori della University of Southern California (USC) hanno sviluppato un sistema in cui i robot possono apprendere compiti complicati con poche dimostrazioni. Ancora più impressionante, alcune delle dimostrazioni possono essere imperfette.
La ricerca è stata presentata alla Conference on Robot Learning (CoRL) il 18 novembre, intitolata ” Learning from Demonstrations Using Signal Temporal Logic “.
Il sistema
La qualità di ogni dimostrazione viene misurata in modo che il sistema possa imparare dai suoi successi e fallimenti. A differenza dei metodi attuali, che richiedono almeno 100 dimostrazioni per insegnare un’attività specifica, il nuovo sistema ne richiede solo alcune. In modo intuitivo, il modo in cui questi robot apprendono è simile al modo in cui gli umani imparano gli uni dagli altri. Ad esempio, gli esseri umani guardano e imparano dagli altri che completano i compiti con successo o in modo imperfetto.
Aniruddh Puranic è l’autore principale della ricerca e un dottorato di ricerca. studente in informatica presso la USC Viterbi School of Engineering.
“Molti sistemi di apprendimento automatico e apprendimento per rinforzo richiedono grandi quantità di dati e centinaia di dimostrazioni: è necessario un essere umano per dimostrare più e più volte, il che non è fattibile”, ha affermato Puranic.
“Inoltre, la maggior parte delle persone non ha conoscenze di programmazione per affermare esplicitamente ciò che il robot deve fare e un essere umano non può assolutamente dimostrare tutto ciò che un robot deve sapere”, ha continuato. “E se il robot incontra qualcosa che non ha mai visto prima? Questa è una sfida fondamentale. “
I ricercatori hanno utilizzato la “logica temporale del segnale” o STL per determinare la qualità delle dimostrazioni, classificandole di conseguenza e creando ricompense intrinseche.
Ci sono due ragioni principali per cui i ricercatori hanno scelto STL:
Imparando attraverso dimostrazioni, i robot possono rilevare imperfezioni o persino comportamenti non sicuri e azioni indesiderate.
Le dimostrazioni possono differire in termini di qualità a seconda dell’utente che le fornisce e alcune dimostrazioni sono indicatori migliori del comportamento desiderato rispetto ad altre.
Sviluppando il sistema in questo modo, il robot può ancora imparare dalle dimostrazioni imperfette, anche se non soddisfano i requisiti logici. In altre parole, fa le proprie conclusioni sull’accuratezza o sul successo.
Stefanos Nikolaidis è un coautore e assistente professore di informatica dell’USC Viterbi.
“Diciamo che i robot imparano da diversi tipi di dimostrazioni – potrebbe essere una dimostrazione pratica, video o simulazioni – se faccio qualcosa che è molto pericoloso, gli approcci standard faranno una di queste due cose: o lo ignoreranno completamente o, peggio ancora, il robot imparerà la cosa sbagliata “, dice Nikolaidis.
“Al contrario, in modo molto intelligente, questo lavoro utilizza un ragionamento di buon senso sotto forma di logica per capire quali parti della dimostrazione sono buone e quali no”, continua. “In sostanza, questo è esattamente ciò che fanno anche gli umani.”
Logica temporale del segnale
I robot possono ragionare sui risultati attuali e futuri attraverso STL, che è un linguaggio simbolico matematico espressivo. Prima di STL, la ricerca si basava sulla “logica temporale lineare”.
Jyo Deshmukh è un ex ingegnere Toyota e assistente professore di informatica alla USC.
“Quando entriamo nel mondo dei sistemi cyber fisici, come i robot e le auto a guida autonoma, dove il tempo è cruciale, la logica temporale lineare diventa un po ‘macchinosa, perché ragiona su sequenze di valori vero / falso per le variabili, mentre STL consente di ragionare su segnali fisici “, dice Deshmukh.
Il team di ricercatori è rimasto sorpreso dal livello di successo del sistema.
“Rispetto a un algoritmo all’avanguardia, ampiamente utilizzato nelle applicazioni di robotica, si nota una differenza di ordine di grandezza nel numero di dimostrazioni richieste”, afferma Nikolaidis.
Secondo i ricercatori, i sistemi potrebbero imparare dai simulatori di guida e infine dai video. Il prossimo passo è testarlo su robot reali, poiché il test iniziale è stato eseguito su un simulatore di gioco. Il sistema sarà utile per applicazioni come quelle in ambienti domestici, magazzini e rover per l’esplorazione spaziale.
“Se vogliamo che i robot siano buoni compagni di squadra e aiutino le persone, prima devono imparare e adattarsi alle preferenze umane in modo molto efficiente”, afferma Nikolaidis. “Il nostro metodo lo fornisce.”