La robotica si confronta costantemente con una sfida di rilievo: l’intenso sforzo richiesto per addestrare i modelli di apprendimento automatico per ciascun robot, attività ed ambiente. Oggi, un ambizioso progetto portato avanti da Google DeepMind, in collaborazione con altri 33 istituti di ricerca, cerca di affrontare questa problematica. L’obiettivo è creare un sistema di intelligenza artificiale generico, capace di operare con differenti tipi di robot fisici e di eseguire una vasta gamma di compiti.
Pannag Sanketi, Senior Staff Software Engineer presso Google Robotics, ha affermato: “Abbiamo notato che i robot sono eccellenti specialisti, ma si rivelano dei poveri generalisti. Solitamente, è necessario addestrare un modello specifico per ogni compito, robot ed ambiente. Modificare anche solo una variabile richiede spesso ripartire da zero.”
Per superare questa sfida e semplificare notevolmente l’addestramento e l’implementazione dei robot, il progetto, chiamato Open-X Embodiment, presenta due elementi chiave: un set di dati contenente informazioni su svariati tipi di robot e una famiglia di modelli in grado di trasferire competenze tra una vasta gamma di compiti. I ricercatori hanno testato questi modelli in laboratori di robotica e su diversi tipi di robot, ottenendo risultati superiori rispetto ai metodi tradizionali di addestramento dei robot.
Solitamente, ogni tipo di robot, con il suo unico set di sensori e attuatori, richiede un modello software specifico, simile al modo in cui il cervello e il sistema nervoso di ogni organismo vivente si sono evoluti per adattarsi al corpo e all’ambiente di quell’organismo.
L’idea alla base del progetto Open X-Embodiment è stata quella di combinare dati provenienti da differenti robot ed attività al fine di creare un modello generalizzato in grado di superare i modelli specializzati, applicabile a tutti i tipi di robot. Questo approccio si è ispirato in parte ai modelli linguistici di grandi dimensioni (LLM), che, quando addestrati su set di dati ampi e generali, sono in grado di competere o addirittura superare modelli più piccoli addestrati su dati specifici e ristretti. Sorprendentemente, questa stessa logica si è dimostrata valida anche nel campo della robotica.
Per creare il set di dati Open X-Embodiment, il team di ricerca ha raccolto dati provenienti da 22 tipi diversi di robot presso 20 istituti di ricerca in vari paesi. Questo set di dati include esempi di oltre 500 competenze e 150.000 attività, con più di 1 milione di episodi (dove un episodio rappresenta una sequenza di azioni eseguite dal robot ogni volta che cerca di compiere un’attività).
I modelli correlati si basano sull’architettura del trasformatore, la stessa utilizzata nei modelli linguistici di grandi dimensioni. RT-1-X si basa sul Robotics Transformer 1 (RT-1), un modello multi-task per la robotica del mondo reale su larga scala. RT-2-X è costruito sul successore di RT-1, RT-2, un modello VLA (Visione-Linguaggio-Azione) che ha imparato sia dalla robotica che dai dati web ed è in grado di rispondere a comandi in linguaggio naturale.
I ricercatori hanno testato RT-1-X su diversi compiti in cinque laboratori di ricerca differenti, utilizzando cinque tipi di robot comunemente impiegati. In confronto ai modelli specializzati sviluppati specificamente per ciascun robot, RT-1-X ha mostrato un tasso di successo superiore al 50% in attività come la raccolta e il trasporto di oggetti, così come l’apertura di porte. Inoltre, questo modello è stato in grado di generalizzare le sue competenze in ambienti diversi, superando i modelli specializzati limitati a un ambiente visivo specifico. Questo indica che un modello addestrato su una varietà di esempi supera generalmente i modelli specializzati in molti compiti. Secondo lo studio, questo modello può essere applicato a una vasta gamma di robot, dai bracci robotici ai quadrupedi.
Sergey Levine, professore associato presso la UC Berkeley e coautore dell’articolo, ha commentato: “Chiunque abbia condotto ricerche nel campo della robotica sa quanto sia straordinario: di solito questi modelli non funzionano alla prima prova, ma in questo caso hanno funzionato.”
RT-2-X ha ottenuto un successo tre volte superiore a RT-2 in competenze emergenti, cioè nuovi compiti che non erano inclusi nei dati di addestramento originali. In particolare, RT-2-X ha dimostrato prestazioni migliori in compiti che richiedono una comprensione spaziale, come la distinzione tra spostare una mela vicino a un tessuto anziché posizionarla sopra il tessuto.
I ricercatori hanno reso open source il set di dati Open X-Embodiment e una versione ridotta del modello RT-1-X, anche se il modello RT-2-X non è stato rilasciato come open source.
Pannag Sanketi ha dichiarato: “Crediamo che questi strumenti trasformeranno l’approccio all’addestramento dei robot e accelereranno il progresso in questo campo di ricerca. Speriamo che rendendo open source i dati e fornendo modelli sicuri ma limitati, possiamo abbattere le barriere e accelerare ulteriormente la ricerca. Il futuro della robotica risiede nella possibilità che i robot imparino gli uni dagli altri e, soprattutto, che i ricercatori possano imparare gli uni dagli altri.”