Gemini Robotics-ER 1.6, il nuovo modello AI di Google che permette alle macchine di capire l’ambiente e correggere i propri errori

L’integrazione tra i grandi modelli di linguaggio e la robotica fisica sta compiendo un salto qualitativo fondamentale verso quella che viene definita intelligenza incarnata. Con il rilascio di Gemini Robotics-ER 1.6, Google DeepMind ha introdotto un’architettura progettata per superare il limite della semplice esecuzione reattiva di comandi, puntando su una capacità di giudizio autonoma applicata all’ambiente reale. Questo modello si pone come un supervisore cognitivo di alto livello, capace non solo di interpretare stringhe di testo, ma di processare flussi visivi e spaziali per formulare piani d’azione complessi, monitorare il proprio successo e interagire con precisione millimetrica con gli oggetti fisici.

Il cuore tecnologico di questo avanzamento risiede nel cosiddetto ragionamento basato sull’indicazione, una metodologia che trasforma il riconoscimento degli oggetti in un processo di pensiero intermedio. A differenza dei sistemi precedenti che si limitavano a fornire coordinate spaziali bidimensionali, Gemini Robotics-ER 1.6 utilizza il puntamento come strumento logico per risolvere problemi di natura semantica e geometrica. Il robot è ora in grado di discriminare tra oggetti basandosi su criteri astratti, come la capacità di un solido di entrare all’interno di un contenitore specifico, o di identificare l’elemento più piccolo all’interno di un gruppo eterogeneo. Questo approccio migliora drasticamente il calcolo delle traiettorie e l’individuazione dei punti di presa ottimali, riducendo gli errori di manipolazione in ambienti non strutturati.

Un aspetto cruciale per l’autonomia operativa è la capacità del modello di determinare autonomamente il completamento di un compito, ovvero il rilevamento del successo. Gemini Robotics-ER 1.6 non si limita a eseguire una sequenza di movimenti preimpostati, ma valuta costantemente l’esito delle proprie azioni attraverso un ciclo di feedback visivo. Se il sistema rileva che un obiettivo non è stato raggiunto o che un oggetto è scivolato durante la presa, è in grado di prendere la decisione autonoma di riprovare l’operazione o di modificare la strategia d’approccio. Questa competenza è fondamentale per l’esecuzione di compiti a lungo termine, dove la persistenza e l’adattabilità ai fallimenti intermedi definiscono la differenza tra un automa rigido e un assistente robotico flessibile.

L’efficacia della percezione è stata ulteriormente potenziata attraverso l’inferenza multivista. Sfruttando i dati provenienti da diverse telecamere posizionate strategicamente, ad esempio sulla testa e sui polsi del robot, il modello integra prospettive multiple per ricostruire una comprensione coerente della scena. Questa capacità permette al sistema di operare con stabilità anche in presenza di occlusioni parziali o condizioni di illuminazione sfavorevoli, situazioni tipiche degli ambienti industriali e domestici. In questo contesto si inserisce la funzione di lettura degli strumenti, sviluppata in collaborazione con Boston Dynamics, che abilita il robot a interpretare analogicamente manometri, termometri e indicatori di livello. Attraverso una tecnica di visione agente che combina l’ingrandimento dell’immagine e l’esecuzione di codice dedicato, il robot può decodificare la posizione di un ago su una scala graduata e trasformarla in un dato numerico preciso.

Infine, l’architettura di Gemini Robotics-ER 1.6 integra protocolli di sicurezza avanzati basati sulla comprensione dei vincoli fisici. Il modello dimostra una consapevolezza intrinseca delle proprie limitazioni e dei rischi ambientali, riuscendo a rispettare divieti specifici legati alla natura dei materiali o ai limiti di carico. Questa sensibilità al contesto fisico, unita alla possibilità di richiamare strumenti esterni come Google Ricerca o modelli Vision-Language-Behavior, trasforma il robot in un agente informato e prudente. Attualmente accessibile tramite l’API Gemini e Google AI Studio, questa tecnologia fornisce agli sviluppatori gli strumenti necessari per implementare logiche di ragionamento sofisticate, portando la robotica fuori dai laboratori e verso una reale utilità pratica nei settori produttivi e quotidiani.

Gemini Robotics-ER 1.6, il nuovo modello AI di Google che permette alle macchine di capire l’ambiente e correggere i propri errori

DiFantasy

Di Fantasy

Articoli correlati

Sakana AI presenta Marlin, un agente di ricerca autonoma capace di generare report strategici in otto ore

Google DeepMind pubblica una roadmap tecnica per il passaggio da AGI a Superintelligenza

Databricks presenta Omnigent, una piattaforma open source per orchestrare più agenti AI in un unico sistema

Ultimi Post

Sakana AI presenta Marlin, un agente di ricerca autonoma capace di generare report strategici in otto ore

Google DeepMind pubblica una roadmap tecnica per il passaggio da AGI a Superintelligenza

Databricks presenta Omnigent, una piattaforma open source per orchestrare più agenti AI in un unico sistema

SpaceX affitta Colossus 1 ad Anthropic mentre riorganizza l’infrastruttura per l’addestramento di Grok