Figure AI ha pubblicato una nuova dimostrazione dei suoi robot umanoidi in cui due unità equipaggiate con il modello Helix-02 riordinano una camera da letto in meno di due minuti, coordinandosi tra loro senza un supervisore centrale, senza teleoperazione dichiarata e senza scambio esplicito di messaggi. Il video mostra una sequenza domestica apparentemente semplice, ma tecnicamente molto complessa: un robot sistema cappotto e libri sul letto, l’altro chiude un laptop, ripone le cuffie, sistema la scrivania e poi entrambi si dispongono ai lati del letto per allineare cuscini e coperta. La parte più rilevante non è il gesto domestico in sé, ma il fatto che l’intera sequenza venga presentata come un comportamento autonomo, coordinato e basato su una singola politica neurale appresa, capace di trasformare direttamente dati visivi e sensoriali in azioni fisiche.
L’azienda descrive questa dimostrazione come un passo avanti nella robotica umanoide collaborativa, perché i due robot non lavorano semplicemente in parallelo su compiti separati, ma devono modificare il proprio comportamento osservando ciò che l’altro sta facendo. Questo è un punto decisivo. Due robot nella stessa stanza non equivalgono a due automazioni isolate eseguite nello stesso ambiente: ogni movimento di una macchina cambia la configurazione fisica della scena, la posizione degli oggetti, le condizioni di accesso e le informazioni disponibili per l’altra. Nel caso del letto, per esempio, la coperta non è un oggetto rigido con geometria stabile, ma un materiale deformabile che si piega, scivola, crea tensione, cambia forma a ogni trazione e non offre un confine naturale tra “la parte di un robot” e “la parte dell’altro”.
La difficoltà tecnica principale sta proprio nella manipolazione condivisa di un oggetto deformabile. Per un essere umano, sollevare una coperta, stenderla e correggere le pieghe è un gesto quotidiano, ma per un robot richiede una combinazione di percezione visiva, controllo delle mani, bilanciamento del corpo, adattamento in tempo reale e previsione dell’effetto delle proprie azioni. Se un robot tira troppo, la coperta si sposta in modo irregolare; se tira troppo poco, resta piegata; se si muove fuori tempo rispetto all’altro, l’oggetto si accartoccia o viene trascinato da un solo lato. Il sistema deve quindi aggiornare continuamente la rappresentazione della scena, stimare la posizione del tessuto, coordinare braccia e corpo, mantenere equilibrio e sincronizzarsi con il partner attraverso segnali visivi.
Figure AI sostiene che non ci sia un planner condiviso tra i due robot, né un canale di messaggistica esplicito, né un coordinatore esterno. Ogni robot osserva la stanza con le proprie camere e inferisce l’intenzione dell’altro dal movimento, in modo simile a come due persone possono coordinarsi quando piegano un lenzuolo o trasportano un oggetto ingombrante. Questo non significa che il robot “capisca” la situazione come un essere umano, ma che il modello deve estrarre dal flusso visivo indizi sufficienti per decidere quando aspettare, quando tirare, quando spostarsi, quando correggere e quando lasciare spazio all’altro agente. L’uso di cenni del capo come segnale visivo è interessante proprio perché mostra una forma rudimentale di coordinamento corporeo, non basata su comandi testuali o protocolli simbolici espliciti.
Il cuore tecnico della dimostrazione è Helix-02, il modello di Figure progettato per estendere il controllo neurale all’intero corpo del robot. Nel materiale tecnico pubblicato dall’azienda, Helix-02 viene descritto come un sistema “pixels-to-whole body”, cioè una pipeline in cui sensori, visione, tatto e propriocezione vengono collegati a comandi motori completi per gambe, busto, testa, braccia, polsi e dita. La novità rispetto a molti approcci robotici tradizionali è il tentativo di evitare una decomposizione rigida tra camminata, stabilizzazione, manipolazione e presa, sostituendo una serie di controllori separati con una gerarchia neurale più integrata.
Figure divide questa architettura in tre livelli concettuali. Il livello più alto, indicato come System 2, interpreta la scena, il linguaggio e gli obiettivi semantici; il livello intermedio, System 1, trasforma percezione e obiettivi in target articolari per il corpo; il livello più basso, System 0, opera ad alta frequenza per gestire equilibrio, contatti e coordinazione motoria. Secondo l’azienda, System 1 lavora a 200 Hz, mentre System 0 arriva a 1 kHz, con l’obiettivo di mantenere il controllo corporeo stabile mentre il robot cammina, manipola oggetti e recupera piccoli errori di contatto o postura. Questa distinzione è rilevante perché la robotica umanoide non può basarsi solo su ragionamento simbolico: quando il robot sposta il peso, solleva un oggetto, usa un piede come punto di appoggio o coordina entrambe le mani, deve reagire su scale temporali molto più rapide di quelle tipiche di un modello linguistico.
La dimostrazione della camera da letto diventa quindi un esempio pratico di “loco-manipulation”, cioè la capacità di camminare e manipolare oggetti come un unico comportamento continuo. Questo è uno dei problemi più difficili della robotica umanoide, perché locomozione e manipolazione si influenzano costantemente. Se il robot afferra una coperta, cambia la distribuzione delle forze sulle braccia; se si sporge per raggiungere un cuscino, cambia il baricentro; se deve usare entrambe le mani, deve mantenere stabilità senza poter usare gli arti superiori per compensare; se spinge una sedia o apre una porta, deve produrre forza attraverso piedi, gambe, busto e braccia in modo coordinato. Figure sottolinea che Helix-02 è stato addestrato per eseguire compiti a lungo orizzonte, come caricare e scaricare una lavastoviglie per diversi minuti, proprio per dimostrare questa integrazione tra movimento, presa e pianificazione fisica.
Nel video della camera non compaiono solo il letto e la coperta. Figure elenca anche azioni come aprire porte, appendere vestiti, riporre cuffie su un supporto, chiudere un libro, buttare rifiuti, spingere una sedia sotto la scrivania e manipolare oggetti con entrambe le mani. Questi dettagli sono importanti perché indicano che la dimostrazione non è costruita intorno a un unico gesto meccanico ripetuto, ma intorno a una sequenza di micro-compiti diversi, con oggetti rigidi, deformabili, articolati e posizionati in punti differenti della stanza. Il robot deve quindi passare da un tipo di controllo all’altro senza una pausa visibile tra sottosistemi separati.
La parte più ambiziosa della comunicazione di Figure riguarda il fatto che il comportamento non sarebbe stato programmato specificamente per rifare il letto, ma appreso aggiungendo nuovi dati allo stesso approccio già usato in precedenza per compiti logistici, riordino della cucina, piegatura del bucato e riordino del soggiorno. Questo è un punto cruciale nella corsa alla robotica generalista. Se ogni nuovo compito domestico richiedesse mesi di programmazione dedicata, la scalabilità commerciale degli umanoidi sarebbe molto limitata. L’obiettivo delle aziende del settore è invece costruire modelli robotici capaci di assorbire nuovi dati e nuove dimostrazioni, trasferendo competenze motorie e percettive da un ambiente all’altro.
Naturalmente, la dimostrazione va letta anche con cautela. Si tratta di un video aziendale, in un ambiente controllato, con oggetti predisposti e una sequenza scelta per mostrare il comportamento migliore del sistema. Non equivale ancora alla prova che un robot umanoide possa entrare in qualsiasi casa, interpretare disordine reale, oggetti imprevisti, spazi stretti, animali domestici, bambini, superfici instabili, tessuti diversi e richieste ambigue con la stessa affidabilità. La robotica domestica è molto più difficile della robotica industriale proprio perché l’ambiente umano non è standardizzato: ogni casa ha mobili diversi, illuminazione diversa, pavimenti diversi, ostacoli diversi e aspettative diverse su cosa significhi “riordinare bene”.
Tuttavia, il valore tecnico del video non dipende solo dalla spettacolarità della scena. La dimostrazione suggerisce che Figure sta cercando di spostare il baricentro dalla robotica basata su script e pipeline modulari verso sistemi neurali più integrati, in cui percezione, controllo e comportamento vengono appresi come parti di una stessa architettura. Nei sistemi tradizionali, un robot spesso esegue una sequenza costruita da molti moduli: riconoscimento dell’oggetto, stima della posa, pianificazione della presa, controllo del braccio, verifica del contatto, movimento verso un’altra posizione e così via. Questo approccio è interpretabile e ingegneristicamente controllabile, ma può diventare fragile quando il mondo reale non rispetta le ipotesi del progettista. Figure sta invece puntando su una maggiore continuità tra sensori e attuatori, con il modello che aggiorna il comportamento molte volte al secondo.
Questa scelta ha vantaggi e rischi. Il vantaggio è l’adattabilità: un modello end-to-end può reagire a piccole variazioni, correggere errori intermedi e usare segnali ricchi che sarebbero difficili da formalizzare manualmente. Il rischio è la minore trasparenza: quando una politica neurale decide come muovere il corpo, può essere più difficile capire perché abbia scelto una presa, una traiettoria o un tempo di attesa. Per portare questi sistemi in ambienti reali, soprattutto domestici, serviranno quindi non solo dimostrazioni convincenti, ma anche strumenti di verifica, limiti di sicurezza, diagnostica, simulazione, raccolta dati continua e procedure per gestire comportamenti imprevisti.
La presenza di due robot nello stesso ambiente aggiunge un altro livello di complessità. La robotica multi-agente non riguarda soltanto la divisione del lavoro, ma la costruzione di comportamenti compatibili. Un umanoide deve evitare collisioni con l’altro, non ostacolarne il campo visivo, non occupare la stessa zona di lavoro, non applicare forze incompatibili sullo stesso oggetto e non anticipare in modo errato l’azione del partner. Nel caso della coperta, l’oggetto condiviso diventa anche un canale fisico di interazione: la tensione del tessuto trasmette indirettamente informazioni sull’azione dell’altro robot. Questo rende la dimostrazione più interessante di una semplice scena in cui due robot raccolgono oggetti diversi in zone separate.
L’aspetto della comunicazione implicita è particolarmente rilevante per il futuro dei robot umanoidi in ambienti umani. In una casa, in un magazzino o in una fabbrica, un robot non potrà sempre chiedere istruzioni esplicite per ogni movimento, né potrà contare su messaggi strutturati provenienti da altri agenti. Dovrà interpretare traiettorie, posture, gesti, pause e intenzioni probabili. Questo vale nella collaborazione con altri robot, ma diventa ancora più importante nella collaborazione con le persone. Un robot che lavora accanto a un essere umano deve capire quando sta intralciando, quando deve aspettare, quando può avvicinarsi e quando deve lasciare spazio. La dimostrazione di Figure, pur limitata a due robot, anticipa proprio questo problema più generale: la convivenza fisica tra agenti autonomi nello stesso spazio.
Il collegamento con Figure 03 è altrettanto importante. Helix-02 sfrutta sensori integrati nel robot, inclusi sistemi visivi, propriocezione, camere sulle mani e sensori tattili nelle dita. Figure afferma che i sensori tattili possono rilevare forze molto piccole e che le camere nei palmi servono a mantenere feedback visivo anche quando l’oggetto è occluso dalla camera principale. Questo dettaglio è centrale nella manipolazione domestica, perché molti oggetti vengono afferrati in posizioni in cui la mano stessa nasconde il punto di contatto. Senza feedback tattile o visione ravvicinata, il robot può non sapere se sta stringendo abbastanza, se l’oggetto sta scivolando, se una presa è instabile o se il contatto sta deformando un materiale delicato.
La manipolazione della biancheria è uno dei casi più difficili proprio perché combina assenza di forma fissa, auto-occlusione, contatti multipli e attrito variabile. Una tazza, una scatola o un libro hanno geometrie relativamente prevedibili; una coperta cambia forma a seconda di come viene presa, tirata e appoggiata. Ogni piega può nascondere bordi, creare zone sovrapposte o cambiare il comportamento del tessuto durante il movimento. Per questo la capacità di stendere una coperta non è un semplice esercizio dimostrativo, ma un test significativo per la robotica domestica: implica controllo del corpo, percezione continua, gestione dell’incertezza e coordinamento con un altro agente.
Il valore industriale di questa dimostrazione si collega anche alla posizione finanziaria di Figure. Nel settembre 2025 l’azienda ha annunciato oltre 1 miliardo di dollari di capitale impegnato nella Serie C, con una valutazione post-money di 39 miliardi di dollari; Reuters ha riportato la stessa cifra, collocando Figure tra le startup più valutate nel settore della robotica AI. Questo capitale serve a finanziare una scommessa molto costosa: costruire robot umanoidi generalisti richiede hardware, produzione, raccolta dati, infrastruttura di calcolo, simulazione, sicurezza, testing e una lunga fase di perfezionamento prima della distribuzione su larga scala.
Il punto strategico è che Figure non vuole competere solo sul singolo robot, ma sull’intero stack: hardware umanoide, sensori, mani, controllo motorio, modelli VLA, dati, simulazione e produzione. La dimostrazione dei due robot che rifanno il letto serve quindi anche a comunicare una tesi industriale: il robot umanoide non deve essere programmato compito per compito, ma deve diventare una piattaforma fisica capace di apprendere nuove abilità man mano che riceve dati migliori. In questa visione, ogni nuova dimostrazione non è soltanto un video promozionale, ma un tassello nella costruzione di un modello generalista per ambienti umani.
La scelta di concentrarsi su una camera da letto è significativa anche dal punto di vista narrativo. I magazzini e le fabbriche sono ambienti più controllati, dove il robot può essere introdotto gradualmente con procedure standardizzate e compiti ripetitivi. La casa, invece, rappresenta il livello più alto di complessità percettiva e sociale. Un robot domestico deve muoversi tra oggetti personali, superfici morbide, materiali fragili, spazi non ottimizzati per le macchine e aspettative implicite. Il fatto che Figure mostri due umanoidi in una stanza privata e familiare serve a spostare l’immaginario dalla robotica industriale alla robotica quotidiana, anche se la distanza tra demo e prodotto commerciale resta ancora ampia.
In termini tecnici, la dimostrazione mette insieme tre linee di sviluppo che oggi stanno convergendo nella robotica avanzata. La prima è l’uso di modelli visione-linguaggio-azione, capaci di collegare comandi semantici e percezione visiva a comportamenti motori. La seconda è il controllo full-body, necessario per far sì che un umanoide non usi solo braccia e mani, ma tutto il corpo come sistema dinamico. La terza è la collaborazione multi-agente, in cui più robot devono condividere spazio, obiettivo e oggetti senza una regia esplicita. La combinazione di questi tre elementi è ciò che rende il video più importante di una semplice automazione domestica.
Resta aperta la questione della robustezza. Una dimostrazione di due minuti non dice ancora quanto spesso il sistema fallisca, quante prove siano state necessarie per ottenere la clip pubblicata, quali siano i limiti di illuminazione, quanto cambi il risultato con tessuti diversi, cosa accada se un oggetto è in posizione imprevista o se una persona entra nella stanza durante l’esecuzione. Queste informazioni saranno decisive per valutare la reale maturità della tecnologia. Nel settore della robotica, la differenza tra “funziona in una demo” e “funziona ogni giorno in ambienti reali” è enorme, perché il mondo fisico non perdona approssimazioni come può fare un’interfaccia software.
Nonostante queste cautele, il risultato mostrato da Figure indica chiaramente la direzione del settore. La robotica umanoide sta passando da movimenti spettacolari ma isolati, come salti, danze o manipolazioni brevi, a sequenze più lunghe, integrate e orientate a compiti concreti. L’obiettivo non è far vedere che il robot sa compiere un gesto, ma che sa mantenere continuità operativa: entrare in una stanza, capire dove sono gli oggetti, scegliere una sequenza di azioni, muoversi, manipolare, coordinarsi e completare un obiettivo condiviso. È proprio questa continuità, più della velocità o della forma umanoide in sé, a determinare la distanza tra un prototipo impressionante e un sistema utile.
La dimostrazione di Helix-02 non prova ancora che gli umanoidi domestici siano pronti per il mercato di massa, ma mostra un avanzamento concreto verso una robotica più generalista, meno dipendente da script specifici e più capace di integrare percezione, movimento e collaborazione. Il fatto che due robot possano rifare un letto osservandosi, coordinandosi visivamente e manipolando un oggetto deformabile segna un passaggio tecnico importante perché affronta uno dei nodi più difficili della robotica reale: agire in ambienti umani non strutturati, dove gli oggetti cambiano forma, gli agenti si influenzano a vicenda e ogni decisione fisica modifica il problema successivo.
Il vero significato del video, quindi, non è che due robot siano riusciti a sistemare una camera in meno di due minuti. Il significato è che Figure sta cercando di dimostrare una nuova architettura operativa per gli umanoidi: un sistema appreso, full-body, multi-sensore e collaborativo, capace di trasformare scene reali in azioni coordinate senza dover scomporre ogni compito in una lunga catena di istruzioni manuali. Se questa direzione riuscirà a scalare fuori dagli ambienti controllati, la robotica umanoide potrebbe avvicinarsi a un ruolo molto diverso da quello attuale: non più macchina specializzata per un singolo gesto, ma agente fisico capace di collaborare in modo adattivo dentro spazi progettati per gli esseri umani.
