Mentre il mondo è dominato dai chatbot e dai modelli di linguaggio di grandi dimensioni (LLM), Google DeepMind sta prendendo una strada completamente diversa. L’azienda sta concentrando i suoi sforzi nella costruzione di robot.
Di recente, Google DeepMind ha presentato RoboCat, un agente robotico che si auto-migliora e è in grado di imparare ed eseguire una varietà di compiti utilizzando braccia robotiche diverse. RoboCat genera anche nuovi dati di addestramento per migliorare continuamente le sue abilità. Questo robot può imparare nuovi compiti con meno di 100 dimostrazioni, riducendo così la necessità di supervisione umana durante il processo di formazione.
RoboCat è basato su Gato, un agente generalista che combina l’elaborazione del linguaggio, delle immagini e delle azioni. Questo modello è stato inizialmente rilasciato nel settembre 2022 con l’obiettivo di andare oltre la generazione di testo e diventare un modello multimodale e multi-incarnazione. Dopo aver addestrato Gato, i ricercatori hanno iniziato ad addestrare RoboCat attraverso un processo di “auto-miglioramento” con compiti precedentemente sconosciuti.
Il processo di addestramento di RoboCat comprende diverse fasi: prima si raccolgono un numero significativo di dimostrazioni (da 100 a 1000) per un nuovo compito o per un braccio robotico controllato dall’uomo. Successivamente, utilizzando le dimostrazioni raccolte, RoboCat viene adattato specificamente per quel nuovo compito o braccio, creando un agente specializzato derivato. L’agente specializzato viene poi ulteriormente migliorato attraverso circa 10.000 iterazioni di esercitazione sul nuovo compito o braccio, generando dati di addestramento aggiuntivi nel processo. Infine, i dati dimostrativi e i dati autogenerati vengono integrati nel set di dati di addestramento esistente di RoboCat per migliorare complessivamente l’addestramento. Con l’uso di questo set di dati di addestramento aggiornato, viene creata una nuova versione di RoboCat, incorporando le nuove conoscenze ed esperienze acquisite dall’agente specializzato.
Google DeepMind ha chiaramente dimostrato la sua volontà di spingersi oltre i tradizionali modelli di elaborazione del linguaggio e di concentrarsi sulla creazione di agenti in grado di svolgere compiti nel mondo reale. È una delle poche aziende che cerca di rendere l’intelligenza artificiale veramente utile, invece di limitarsi a costruire semplici chatbot come fanno gli altri.
In un’altra innovazione descritta in un documento di ricerca intitolato “Agile Catching with Whole-Body MPC and Blackbox Policy Learning”, l’azienda presenta un robot capace di catturare oggetti lanciati ad alta velocità. La cosa interessante di questa ricerca è che il robot non si basa su modelli fondamentali come la modellazione del linguaggio per eseguire il compito. Semplicemente utilizzando tecniche di tracciamento e intercettazione, il robot riesce a catturare le palle che gli vengono lanciate.
Google ha anticipato la sua visione e le sue capacità lo scorso anno con PaLM-E, un modello linguistico multimodale progettato per eseguire compiti nel mondo reale, basandosi sulla visione e sulle immagini. Successivamente, con RT-1, Google Research ha utilizzato i trasformatori per il controllo nel mondo reale. Questi sviluppi dimostrano che Google ha integrato con successo DeepMind nel suo ecosistema, creando una partnership di successo.
L’unico concorrente diretto di Google DeepMind nel campo della robotica è Boston Dynamics. L’azienda ha fatto grandi progressi nella robotica sin dal rilascio di Spot e ora sta lavorando anche a un umanoide chiamato “Atlas”. Ciò non significa che altre aziende non stiano lavorando al sogno della robotica. Elon Musk, con la sua azienda Tesla, ha presentato Optimus l’anno scorso, ma al momento sembra che il progetto sia ancora in fase di sviluppo e non se ne sa molto. La situazione sembra meno ottimistica rispetto a quella di Google DeepMind e Boston Dynamics.
OpenAI aveva in passato una divisione di robotica che stava sviluppando un braccio robotico in grado di risolvere il cubo di Rubik. Tuttavia, nel 2021 l’azienda ha chiuso questa divisione. Recentemente, OpenAI ha deciso di tornare al settore della robotica e ha investito in una startup norvegese chiamata 1x.
Nel 2021, quando OpenAI ha chiuso la sua divisione di robotica, Google DeepMind ha compiuto un enorme passo avanti nella creazione di robot più versatili. In un post sul loro blog di ricerca, l’azienda ha introdotto la manipolazione robotica basata sulla visione tramite l’impilamento di immagini RGB (Red, Green, Blue), che consente ai robot di comprendere il mondo e gli oggetti che li circondano.
Al contrario, Microsoft sembra ancora concentrarsi principalmente su ChatGPT. A febbraio, l’azienda ha ampliato le sue capacità nel campo delle armi robotiche, dei droni e di altri robot domestici attraverso una ricerca chiamata “ChatGPT for Robotics”.
È interessante notare che Microsoft ha un laboratorio di robotica chiamato AI Lab Projects, dove sta esplorando l’integrazione di intelligenza artificiale e robotica per automatizzare molte attività. All’interno di questo laboratorio, è presente Paul-E, un robot collaborativo con un movimento a 7 gradi di libertà, dotato di visione e controllo della forza ad alta risoluzione. Tuttavia, la ricerca di Microsoft sembra essere ancora lontana dagli investimenti di Google DeepMind nel settore.
Il dibattito sulla necessità o meno dell’incarnazione per l’AGI (Intelligenza Artificiale Generale) continua da tempo, e la ricerca approfondita di Google DeepMind nel campo, con l’integrazione dei modelli linguistici nelle macchine, sta alimentando ulteriormente questo dibattito.