Google DeepMind ha presentato una nuova piattaforma di apprendimento che consente ai robot di eseguire compiti manuali complessi, come allacciarsi le scarpe e riparare altri robot. La novità principale è l’uso di un modello di diffusione, solitamente impiegato nella generazione di immagini, per superare le limitazioni dei modelli di linguaggio di grandi dimensioni (LLM).
DeepMind ha annunciato “ALOHA Unleashed”, una piattaforma di apprendimento, e “DemoStart”, un programma di simulazione. Questi strumenti aiutano i robot a imparare movimenti complessi attraverso dimostrazioni visive.
Tradizionalmente, i robot possono raccogliere e posizionare oggetti, ma la nuova tecnologia di DeepMind, basata su un sistema a due bracci, amplia le capacità dei robot. Ora, possono eseguire attività come allacciare le scarpe, appendere camicie, riparare robot, inserire ingranaggi e pulire cucine.
ALOHA Unleashed si basa su “Aloha”, un sistema hardware open source sviluppato dalla Stanford University. Questo sistema gestisce a distanza le mani del robot, conduce l’addestramento e raccoglie dati.
La tecnologia di diffusione di Google, “Imagine 3”, viene utilizzata per permettere al robot di eseguire autonomamente i compiti appresi, traducendo le istruzioni in immagini specifiche. Inoltre, DemoStart adotta un algoritmo di apprendimento per rinforzo che consente al robot di apprendere progressivamente, partendo da movimenti più semplici fino a quelli complessi.
Questa combinazione di tecnologie ha portato a un successo superiore al 98% nei compiti simulati, come accoppiare cubi e serrare dadi. Nel mondo reale, i robot hanno raggiunto una percentuale di successo del 97% nel sollevamento di oggetti e del 64% nelle attività di precisione, come l’inserimento di spine e prese.
La simulazione riduce i costi e i tempi di esperimento, ma progettare simulazioni precise può essere difficile. DeepMind ha affermato che l’uso combinato dell’apprendimento per rinforzo e delle demo incrementali aiuta a colmare il divario tra simulazione e realtà.
In collaborazione con Shadow Robot, è stato testato un robot con tre dita chiamato “DEX-EE”, dimostrando che questo approccio è più efficace rispetto ai modelli di linguaggio tradizionali per compiti pratici.
I ricercatori prevedono che in futuro i robot AI assisteranno le persone in vari compiti quotidiani. Questa ricerca punta a rendere possibile questo futuro attraverso un metodo di apprendimento più efficiente e generalizzato.