I progressi di DeepMind nel corso degli anni nella robotica
 
Sostenuto da Alphabet, i progressi di DeepMind l’hanno aiutata a tenere alta la bandiera della robotica negli ultimi anni.
 
AI Research Lab DeepMind ha acquisito e reso open source MuJoCo, un modello di contatto ricco ed efficace. Con l’open source Multi-Joint Dynamics with Contact (MuJoCo), DeepMind ha dato una spinta importante alla sua ambizione robotica.

Questo articolo ripercorrerà come DeepMind ha compiuto sforzi consistenti per superare i limiti della robotica .

 
Apprendimento per rinforzo profondo per addestrare i robot
Nel 2016, i ricercatori di DeepMind hanno dimostrato come l’apprendimento per rinforzo profondo può addestrare veri robot fisici. Il documento ha mostrato che gli algoritmi di apprendimento per rinforzo basati su funzioni Q profonde possono scalare fino a complesse attività di manipolazione 3D e apprendere in modo efficiente le politiche di rete neurale profonda. Gli autori hanno inoltre dimostrato che il tempo per addestrare i robot può essere ulteriormente ridotto dalla parallelizzazione degli algoritmi su più robot che raccolgono in modo asincrono i loro aggiornamenti delle politiche. La metodologia proposta può apprendere una varietà di abilità di manipolazione 3D nella simulazione e un’abilità di apertura della porta (spesso considerata un compito complesso per i robot su cui allenarsi) senza rappresentazioni progettate manualmente.

Produrre comportamenti flessibili
Nel 2018, DeepMind ha pubblicato tre importanti articoli per dimostrare comportamenti flessibili e naturali da riutilizzare e adattare per risolvere i compiti. Gli scienziati hanno addestrato agenti con una varietà di corpi simulati per eseguire attività come saltare, girarsi e accovacciarsi su diversi terreni. I risultati hanno mostrato che gli agenti sviluppano queste abilità senza ricevere istruzioni specifiche.

Un altro documento ha dimostrato un metodo per addestrare una rete di politiche che imita i dati di acquisizione del movimento dei comportamenti umani per pre-apprendere abilità come camminare, alzarsi da terra, girarsi e correre. Questi comportamenti possono quindi essere sintonizzati e riproposti per risolvere altri compiti come salire le scale e navigare attraverso corridoi murati.

Il terzo articolo ha prodotto un’architettura di rete neurale basata su modelli generativi all’avanguardia. Questa ricerca ha mostrato come questa architettura sia in grado di apprendere relazioni tra diversi comportamenti e imitare azioni specifiche che le vengono mostrate. Dopo l’addestramento, i sistemi potrebbero codificare una singola azione osservata e creare un nuovo movimento nuovo.

Scalabilità della robotica basata sui dati
DeepMind ha dimostrato un framework per la robotica basata sui dati che utilizza un ampio set di dati di esperienze robot registrate prima di ridimensionarlo a diverse attività utilizzando una funzione di ricompensa appresa. Questo framework può essere applicato per eseguire tre diverse attività di manipolazione di oggetti su una piattaforma robotica reale. 

Gli scienziati hanno utilizzato una forma speciale di annotazioni umane come supervisione per apprendere una funzione di ricompensa e dimostrare compiti con un’esperienza registrata indipendente dal compito. Questo aiuta ad affrontare le attività del mondo reale in cui il segnale di ricompensa non può essere acquisito direttamente.

I premi appresi e l’ampio set di dati dell’esperienza derivato da diverse attività vengono utilizzati per apprendere la politica dei robot offline utilizzando l’apprendimento del rinforzo in batch. Questo approccio consente di addestrare gli agenti a svolgere compiti di manipolazione impegnativi come l’impilamento di oggetti rigidi.

Nuovo benchmark per l’impilamento
DeepMind ha recentemente introdotto RGB-Stacking come nuovo punto di riferimento per le attività di manipolazione robotica basate sulla visione. Qui il robot deve imparare ad afferrare oggetti diversi e bilanciarli l’uno sull’altro. Era diverso dai lavori precedenti a causa della diversità degli oggetti utilizzati e della varietà di valutazioni empiriche eseguite per verificare l’accuratezza dei risultati. 

 

I giocatori saranno messi contro l’intelligenza artificiale mentre Battle of Polytopia diventa parte di AndroidEnv di DeepMind
 

I risultati hanno dimostrato che la manipolazione complessa di più oggetti può essere appresa utilizzando una combinazione di simulazione e dati del mondo reale. L’esperimento potrebbe anche suggerire una solida base per la generalizzazione a nuovi oggetti. 

Questo esperimento è considerato un importante progresso nello sforzo di DeepMind di creare robot utili e generalizzabili. Gli autori lavoreranno ora per far comprendere meglio ai robot l’interazione con oggetti di diverse geometrie. Il benchmark RGB-Stacking è stato reso open-source insieme ai progetti per la creazione di ambienti di stack RGB di veri robot, modelli di oggetti RGB e informazioni per la stampa 3D. 

MuJoCo
MuJoCo è un simulatore di motore fisico che facilita la ricerca e lo sviluppo in campi che richiedono simulazioni veloci e accurate come robotica, biomeccanica, grafica, animazione, ecc. Sviluppato da Emo Todorov per Roboti, MuJoCo è uno dei primi simulatori completi progettati da zero per l’ottimizzazione basata su modelli tramite contatti. Prima dell’acquisizione di DeepMind, MuJoCo era un prodotto commerciale tra il 2015 e il 2021.


MuJoCo aiuta ad aumentare le tecniche computazionalmente intensive come il controllo ottimale, l’identificazione del sistema, la stima dello stato fisicamente coerente e la progettazione di meccanismi automatizzati prima di applicarle a sistemi dinamici complessi in comportamenti ricchi di contatti. Ha anche applicazioni come il test e la convalida di schemi di controllo prima dell’implementazione su robot fisici, giochi e visualizzazione scientifica interattiva.

 
Questa è probabilmente una fase lenta per il lavoro di ricerca e sviluppo nella robotica. Il rivale di DeepMind OpenAI , dopo aver investito molti anni di ricerca, risorse e sforzi nella robotica, ha finalmente deciso di sciogliere il suo team di ricerca sulla robotica e spostare l’attenzione su domini in cui i dati sono più facilmente disponibili. Anche dal punto di vista del settore, diverse aziende basate sulla robotica hanno chiuso i battenti o stanno subendo gravi perdite. Date le circostanze, la robotica, nonostante sia un’industria così redditizia, non si è limitata a nessun acquirente.

Sostenuto da Alphabet , i progressi di DeepMind l’hanno aiutata a tenere alta la bandiera in questo campo negli ultimi anni.

Di ihal