C’è qualcosa di affascinante nello spostare l’intelligenza artificiale dallo spazio digitale a quello fisico: è come dare “gambe e braccia” a un sistema che finora ha potuto solo “osservare” e “riflettere” ma non “agire” in ambienti reali. È con questa ambizione che Google DeepMind ha annunciato la nuova generazione Gemini Robotics 1.5 e Gemini Robotics-ER 1.5, modelli che non si limitano a rispondere a comandi, ma cercano di pianificare, ragionare e intervenire nel mondo — con l’aiuto, sorprendentemente, del web.
Nella versione precedente, ER 1.0, il sistema era capace di svolgere compiti “semplici” — piegare carta, aprire borse — attività che richiedono solo una sequenza corta e ben definita. Ma il mondo reale è raramente così semplice: molte volte un’azione richiede decisioni intermedie, adattamenti, informazioni esterne. È qui che entra in scena la novità di Gemini Robotics 1.5. Ora, un robot può “comprendere” che deve fare più cose: ad esempio dividere il bucato per colori chiari e scuri, imbucare una valigia con occhio al clima locale, e persino interpretare regole di riciclo differenziato cercando sul web le linee guida del comune. (“Sort the trash according to local recycling guidelines”: un esempio che DeepMind stesso cita).
Il processo è orchestrato da due modelli che collaborano: ER 1.5 è focalizzato sul ragionamento incarnato (embodied reasoning) — osserva l’ambiente, riflette sui passi da compiere, decide che strumenti esterni usare (ad esempio, una ricerca Google) — e quindi traduce quel ragionamento in istruzioni comprensibili per il modello Gemini Robotics 1.5, che guida le azioni effettive, percepisce visione, linguaggio e agisce (“vision-language-action”) sul robot fisico.
In questo schema, non si richiede che il robot “sapesse tutto” a priori. Se si presenta un compito che coinvolge conoscenze locali o normative, il modello può cercare, acquisire quell’informazione e integrarla nel piano. È un’architettura che cerca di abbattere una barriera storica: la separazione tra “pensare” e “fare”, tra ragionamento astratto e movimento concreto.
Uno degli aspetti più sorprendenti è la capacità di trasferire competenze da un robot all’altro. DeepMind afferma che una sequenza di comandi o una “abilità” appresa da un braccio robotico può essere applicata anche su robot diversi — come il robot umanoide Apollo di Apptronik o il braccio di Franca Robotics — senza dover riaddestrare da zero ogni versione. Questo trasferimento tra strutture diverse rende l’approccio più scalabile e meno incatenato all’hardware specifico.
È un passo importante: finora, molte soluzioni robotiche erano legate all’hardware, al controllore specifico, al modello cinetico. Qui l’obiettivo è che il “cervello” (l’intelligenza) diventi più disaccoppiato dal corpo, e che le stesse strategie possano essere riutilizzate in ambienti e robot diversi.
DeepMind afferma che Gemini Robotics 1.5 ha superato 15 benchmark di incarnazione (cioè test che misurano la capacità di un modello di ragionare e agire in ambienti reali) sia rispetto a ER 1.0 che — sorprendentemente — rispetto a GPT-5. In alcuni compiti, il sistema avrebbe dimostrato migliori capacità di ragionamento incarnato, dove il “capire” e l’“agire” sono indissolubili.
Non è un’impresa da poco: spesso i modelli di linguaggio avanzati eccellono in ragionamento astratto, ma faticano quando devono fondere percezione, spazio e movimento. Se Gemini Robotics 1.5 riesce a bilanciare bene questi elementi, potrebbe segnare una fase nuova nella robotica “intelligente”.
Al lancio, Gemini Robotics-ER 1.5 è reso disponibile agli sviluppatori tramite l’API Gemini su Google AI Studio. Il modello base Gemini Robotics 1.5 invece è riservato a partner selezionati.
DeepMind riconosce che ci sono sfide importanti da affrontare: l’apprendimento osservazionale (cioè permettere ai robot di acquisire competenze osservando esseri umani), la destrezza fine (operare con movimenti minuti e precisi), e la stabilità e la sicurezza in ambienti reali (prevenire collisioni, errori, rischi). Il passaggio dal laboratorio al mondo reale è delicato, e richiede robustezza, sensibilità al contesto e misure di sicurezza sofisticate. Ad esempio, un robot che deve “impacchettare una valigia” deve non solo sapere dove mettere ogni oggetto, ma adattarsi alle dimensioni, ai vincoli strutturali, ai possibili ostacoli, e forse anche interagire con l’uomo: “spostami questo oggetto” può essere un comando che richiede interpretazione dinamica.
Da Gemini Robotics 1.5 emerge la visione di robot che non solo eseguono istruzioni, ma pensano, pianificano, si adattano. Quando un robot può consultare il web in tempo reale, apprendere regole locali, valutare la mappa dell’ambiente e riadattare un piano in base alle informazioni nuove, allora ci avviciniamo a una forma di agente fisico con sensibilità contestuale.
Questo non significa che i robot diventeranno in breve tempo automi perfetti: ci sono limiti nella percezione sensoriale, nell’azione fine, nella sicurezza, nell’interpretazione ambigua del linguaggio e nei casi “imprevisti”. Ma Gemini Robotics 1.5 è un chiaro indizio che il confine tra “IA digitale” e “robotica intelligente” sta diventando sempre più sottile.