Helix: il nuovo modello Vision-Language-Action di Figure AI per il controllo umanoide generalista

Helix è un modello Vision-Language-Action (VLA) avanzato sviluppato da Figure AI, progettato per controllare in modo continuo e a basso livello l’intero torso superiore di robot umanoidi (polsi, dita, torso, testa). È il primo modello di questo tipo e rappresenta una svolta nel campo della robotica generalista.

Architettura “System 1 / System 2”:

System 2 (S2): modello VLM con circa 7 miliardi di parametri, pre-addestrato su dati internet-scale. Opera a 7–9 Hz e interpreta scene visive, linguaggio e stato del robot per generare un vettore latente semantico (“goal vector”).
System 1 (S1): trasformatore visuo-motorio con circa 80 milioni di parametri, funziona a 200 Hz. Riceve il vettore prodotto da S2 insieme alle immagini e allo stato robotico, traducendo il tutto in comandi continui per dita, polso, torso e testa.

I due sistemi sono addestrati end-to-end tramite backpropagation, permettendo comunicazione fluida e aggiornamenti indipendenti.

Helix è stato addestrato con circa 500 ore di dati raccolti da teleoperazione di robot umanoidi. Un modello VLM produce descrizioni linguistiche automatiche (auto-etichettatura) dei comportamenti eseguiti nel video (“hindsight description”). Nonostante la quantità relativamente contenuta, Helix dimostra forte capacità di generalizzazione.

Capacità dimostrate:

Manipolazione dexterous di asciugamani deformabili, senza modelli geometrici predefiniti.
Nessuna modifica hardware o architetturale tra compiti diversi: basta cambiare il dataset, come nel passaggio da logistica a bucato.
Collaborazione multi-robot per attività coordinate, utilizzando lo stesso modello senza ruoli predefiniti.
“Pick-up anything”: afferrare oggetti nuovi tramite prompt naturali.
Deploy interamente onboard su GPU embedded, adatto a uso reale.
Ottimizzazioni di S1 per logistica
Stereo vision per percezione 3D accurata e multi-scala.
Propriocezione visiva per autocalibrazione tra robot.
Sport Mode: velocità aumentata del 20-50% mantenendo precisione. Anche solo 8 ore di dati possono creare policy efficaci.

Helix supera compromessi tradizionali tra generalizzazione e rapidità esecutiva, fornendo un solo modello per una vasta gamma di compiti—dalla logistica domestica alla manipolazione complessa—su hardware robotico reale.

Helix rappresenta un nuovo paradigma nella robotica VLA: un modello generalista, efficiente, deployable, che integra percezione visiva, linguaggio e controllo motorio in modo sofisticato e scalabile; infine, coniuga generalizzazione linguistica-visiva con controllo motorio fine, in un sistema unificato e prontamente deployable.

Helix: il nuovo modello Vision-Language-Action di Figure AI per il controllo umanoide generalista

DiFantasy

Di Fantasy

Articoli correlati

Gubbio tra realtà e immagini generate dall’AI: la protesta dei cittadini

Orvieto esplora il presepe di Marco Sciarra con Pilato e intelligenza artificiale

Katsuhiro Harada critica i video AI di Tekken

Ultimi Post

Gubbio tra realtà e immagini generate dall’AI: la protesta dei cittadini

Orvieto esplora il presepe di Marco Sciarra con Pilato e intelligenza artificiale

Katsuhiro Harada critica i video AI di Tekken

L’intelligenza artificiale ha trasformato il Matese in cinema con la storia di Ciro