I robot che un tempo eseguivano solo compiti ripetitivi e semplici stanno avanzando rapidamente grazie all’introduzione di modelli linguistici su larga scala (LLM). Google DeepMind, leader in questo settore, ha posto le basi per migliorare significativamente le prestazioni dei robot, permettendo loro di controllare più unità contemporaneamente e raccogliendo grandi quantità di dati. È stata annunciata l’applicazione di misure di sicurezza, note come “i tre principi dei robot”, un concetto rivoluzionario.
Il team di robotica di Google DeepMind ha rivelato sul loro blog ufficiale lo sviluppo di “AutoRT”, “SARA-RT” e “RT-RT”, mirati a ottimizzare la raccolta di dati, la velocità e l’adattabilità dei robot. È stata inoltre introdotta “RT-Trajectory”.
AutoRT funge da “cervello” del robot, integrando LLM, il modello di linguaggio video (VLM), e i modelli di controllo del robot (RT-1, RT-2) sviluppati l’anno precedente, inaugurando un nuovo approccio alla raccolta di dati di apprendimento. Attraverso la videocamera del robot, il VLM riconosce le immagini e l’LLM genera compiti per il robot. Ad esempio, un oggetto a terra viene identificato come “spazzatura”, e il robot è istruito di conseguenza per pulire.
Google ha lanciato “Robotics Transformer (RT-1)” nel febbraio dell’anno precedente, segnando una nuova direzione nella robotica. Questa tecnologia integra l’analisi video e i modelli linguistici, permettendo ai robot di apprendere concetti come “spazzatura” dai dati online.
A marzo, il Berlin Institute of Technology ha introdotto “PaLM-E”, basato su RT-1. Pochi mesi dopo, il robot è stato aggiornato con “RT-2”, eliminando la necessità di programmazione o apprendimento separati per elaborare comandi simili in futuro.
Il nuovo AutoRT permette a più robot dotati di telecamere ed effettori finali di coordinarsi simultaneamente per raccogliere dati e gestire più attività. Google ha utilizzato questo approccio per raccogliere dati attraverso 77.000 attività dettagliate per 6.650 compiti unici, controllando simultaneamente 20-52 robot in vari edifici per uffici in un periodo di sette mesi.
In questa fase iniziale dei robot autonomi, Google ha implementato “guardrail” basati sui “Tre principi della robotica” di Isaac Asimov. I principi sono: non nuocere alle persone, obbedire agli ordini e proteggere il proprio corpo seguendo queste regole. Google ha aggiunto istruzioni per evitare persone o animali e attività rischiose.
I robot sono programmati per fermarsi automaticamente se la forza sulle loro articolazioni supera una soglia, e possono essere arrestati in qualsiasi momento da un supervisore umano.
Sara-RT, una nuova architettura di rete neurale, accelera l’elaborazione dei robot semplificando le informazioni video. Questo ha permesso una maggiore accuratezza del 10,6% e una velocità del 14% superiore rispetto a RT-2.
Il modello “Transformer”, la base di RT-2, rallenta con grandi dati come immagini ad alta risoluzione. Tuttavia, con l'”up-training”, la complessità dei dati e del modello è stata semplificata, riducendo notevolmente i requisiti computazionali.
RT-Trajectory aiuta i robot a implementare le istruzioni del LLM in azioni reali. Google ha migliorato i movimenti dei robot utilizzando schizzi 2D e video di YouTube, passando da movimenti semplici e astratti a quelli più pratici e situazionali.
Google ha testato 41 attività non incluse nei dati di addestramento, raddoppiando il tasso di successo operativo di RT-2 dal 29% al 63%.
Google immagina un futuro in cui i robot possano eseguire compiti come “pulire una casa” o “preparare un pasto”, che richiedono una comprensione avanzata per i robot. La ricerca in corso promette di portare i robot più vicini a questa realtà, migliorando la loro capacità di prendere decisioni e navigare negli ambienti.