Google DeepMind ha presentato un innovativo linguaggio di comunicazione per istruire i robot, basato su un modello di linguaggio di grandi dimensioni (LLM). Il modello VLA (Vision-Language-Action) di Robotic Transformer 2 (RT-2) sfrutta i dati disponibili su Internet e l’intelligenza artificiale generativa per migliorare la comprensione del linguaggio e dei comandi da parte dei robot. Questa tecnologia si avvicina al modo in cui ChatGPT interagisce con gli utenti, ma con l’obiettivo principale di completare compiti nel mondo fisico.
L’obiettivo finale di RT-2 è consentire ai robot di comprendere e seguire gli ordini in modo simile agli esseri umani, senza richiedere un linguaggio specializzato. Il LLM viene addestrato su testi e immagini reperiti online, e l’intelligenza artificiale incorpora tali dati in algoritmi di riconoscimento del modello, permettendo al robot di teoricamente completare un’attività senza una formazione specifica. Ad esempio, istruzioni e immagini relative al recupero di una chiave inglese da un banco degli attrezzi possono essere generalizzate per comprendere martelli e altri strumenti o posizioni simili a un banco degli attrezzi. RT-2 dimostra come un robot possa applicare ciò che ha appreso su uno scenario a un’intera categoria di situazioni, inclusa la comprensione di come un comando si applica a un nuovo contesto. L’aspetto LLM è simile ai chatbot AI generativi, ma con una comprensione più approfondita del contesto fisico, oltre alle informazioni grezze.
Vincent Vanhoucke, responsabile della robotica di DeepMind, ha spiegato: “A differenza dei chatbot, i robot hanno bisogno di essere “radicati” nel mondo reale e nelle loro capacità. Il loro addestramento non riguarda solo, per esempio, l’apprendimento di tutto ciò che c’è da sapere su una mela: come cresce, le sue proprietà fisiche, o anche quello che presuntamente atterrò sulla testa di Sir Isaac Newton. Un robot deve essere in grado di riconoscere una mela nel contesto, distinguerla da una palla rossa, capire come si presenta e, cosa più importante, sapere come raccoglierla”. La capacità di RT-2 di trasferire informazioni alle azioni promette di consentire ai robot di adattarsi più rapidamente a nuove situazioni e ambienti. I test del modello RT-2 su oltre 6.000 prove robotiche hanno mostrato che RT-2 funziona tanto bene quanto il precedente modello RT-1 nelle attività del set di dati di addestramento o di attività “viste”. Inoltre, su scenari nuovi e sconosciuti, RT-2 ha quasi raddoppiato la sua prestazione dal 32% di RT-1 al 62%. In altre parole, con RT-2, i robot sono in grado di apprendere più velocemente e trasferire i concetti appresi a nuove situazioni.
Molti attori dell’industria tecnologica stanno perseguendo il miglioramento dei linguaggi robotici. Ad esempio, Amazon sta lavorando alla riduzione dell’attrito nelle interazioni con i robot attraverso la ricerca sull’intelligenza artificiale, incluso l’Alexa Prize SimBot Challenge. Anche l’Università del Michigan ha recentemente vinto la prima SimBot Challenge con il robot virtuale Seagull, un “agente incarnato interattivo” addestrato nello spazio virtuale per un potenziale utilizzo in robot fisici.
Il punto di vista di Vanhoucke riguardo al superamento dei chatbot AI generativi con gli LLM per migliorare i linguaggi robotici ha senso, ma molti stanno già sperimentando in questo campo. Un esempio è l’azienda Levatas, sviluppatore di software di intelligenza artificiale robotica, che ha incorporato con successo ChatGPT in uno dei cani robot di Boston Dynamics. Combinaando ChatGPT con l’API vocale sintetica Text-to-Speech di Google, il cane robot è stato in grado di comprendere i comandi e tentare di eseguire attività quando richiesto. Anche se ancora lontano dal 100% di comprensione e capacità di esecuzione dei comandi, l’utilizzo di ChatGPT come interfaccia ha permesso una comunicazione più informale e spontanea con il robot.