Gli informatici usano il rinforzo positivo per insegnare ai robot
Gli informatici della Johns Hopkins University hanno implementato la tecnica di addestramento di lunga data del rinforzo positivo, che viene spesso utilizzato per addestrare animali come i cani, su un robot in modo che possa insegnare a se stesso nuovi trucchi. Tra queste nuove abilità c’era la capacità di impilare blocchi.
Il robot si chiama Spot e, secondo i ricercatori, può apprendere abilità in pochi giorni che tradizionalmente richiedono circa un mese.
Rinforzo positivo
Il rinforzo positivo è stato utilizzato dal team per aumentare le abilità del robot. La velocità con cui il team è stato in grado di farlo rende più facile l’implementazione di questi tipi di robot nel mondo reale.
Il lavoro è stato pubblicato in IEEE Robotics and Automation Letters, intitolato “ Good Robot !: Efficient Reinforcement Learning for Multi-Step Visual Tasks with Sim to Real Transfer. ”
Andrew Hundt è uno studente di dottorato che lavora alla Johns Hopkins University e autore principale della ricerca.
“La domanda qui era come fare in modo che il robot apprenda un’abilità?” Egli ha detto. “Ho avuto cani, quindi so che le ricompense funzionano e questa è stata l’ispirazione per il modo in cui ho progettato l’algoritmo di apprendimento”.
Uno dei motivi per cui il rinforzo positivo funziona sui computer è che non hanno cervelli intuitivi, il che significa che sono fondamentalmente una tela bianca su cui è possibile proiettare qualsiasi cosa. In altre parole, devono imparare tutto dal nulla. Uno dei metodi di apprendimento più efficaci per i computer sono i tentativi ed errori, che è qualcosa su cui i robotici stanno ancora lavorando oggi.
Questo è esattamente ciò che hanno fatto i ricercatori quando hanno creato un sistema di ricompensa per il robot, in modo simile al processo di addestramento di un cane dandogli dolcetti. La differenza è che il robot riceverà punti numerici quando completa correttamente un’attività.
I metodi di addestramento del cane aiutano a insegnare ai robot a imparare nuovi trucchi
Quando si trattava di imparare a impilare i blocchi, il robot doveva imparare a concentrarsi su azioni costruttive. Nel metodo, Spot, il robot ha ricevuto punti più alti quando ha completato i comportamenti corretti durante l’impilamento dei blocchi. Al contrario, non ha guadagnato nulla per comportamenti scorretti. Ha guadagnato il maggior numero di punti completando una pila di quattro blocchi con l’ultimo blocco in cima.
I ricercatori hanno riscontrato un grande successo in questo metodo, con il robot che ha imparato in pochi giorni ciò che in passato avrebbe richiesto settimane. Addestrando un robot simulato, il team ha ridotto il tempo di pratica prima di passare al robot Spot.
“Il robot vuole il punteggio più alto”, ha detto Hundt. “Impara rapidamente il comportamento giusto per ottenere la migliore ricompensa. In effetti, era necessario un mese di pratica affinché il robot raggiungesse la precisione del 100%. Siamo riusciti a farlo in due giorni “.
Oltre a imparare come impilare i blocchi, il robot ha utilizzato anche il rinforzo positivo per apprendere altre attività, come ad esempio come giocare a un gioco di navigazione simulato.
“All’inizio il robot non ha idea di cosa stia facendo, ma migliorerà sempre di più con ogni pratica. Non si arrende mai e continua a cercare di impilare ed è in grado di completare l’attività il 100% delle volte “, ha detto Hundt.
Alcune delle possibili applicazioni di questo metodo includono l’addestramento dei robot domestici per completare determinate attività, nonché il miglioramento dei veicoli autonomi.
“Il nostro obiettivo è quello di sviluppare alla fine robot in grado di svolgere compiti complessi nel mondo reale, come l’assemblaggio di prodotti, la cura degli anziani e la chirurgia”, ha detto Hager. “Al momento non sappiamo come programmare attività del genere: il mondo è troppo complesso. Ma un lavoro come questo ci mostra che l’idea che i robot possano imparare a svolgere tali compiti del mondo reale in modo sicuro ed efficiente è promettente.