Helix è un modello Vision-Language-Action (VLA) avanzato sviluppato da Figure AI, progettato per controllare in modo continuo e a basso livello l’intero torso superiore di robot umanoidi (polsi, dita, torso, testa). È il primo modello di questo tipo e rappresenta una svolta nel campo della robotica generalista.
Architettura “System 1 / System 2”:
- System 2 (S2): modello VLM con circa 7 miliardi di parametri, pre-addestrato su dati internet-scale. Opera a 7–9 Hz e interpreta scene visive, linguaggio e stato del robot per generare un vettore latente semantico (“goal vector”).
- System 1 (S1): trasformatore visuo-motorio con circa 80 milioni di parametri, funziona a 200 Hz. Riceve il vettore prodotto da S2 insieme alle immagini e allo stato robotico, traducendo il tutto in comandi continui per dita, polso, torso e testa.
I due sistemi sono addestrati end-to-end tramite backpropagation, permettendo comunicazione fluida e aggiornamenti indipendenti.
Helix è stato addestrato con circa 500 ore di dati raccolti da teleoperazione di robot umanoidi. Un modello VLM produce descrizioni linguistiche automatiche (auto-etichettatura) dei comportamenti eseguiti nel video (“hindsight description”). Nonostante la quantità relativamente contenuta, Helix dimostra forte capacità di generalizzazione.
Capacità dimostrate:
- Manipolazione dexterous di asciugamani deformabili, senza modelli geometrici predefiniti.
- Nessuna modifica hardware o architetturale tra compiti diversi: basta cambiare il dataset, come nel passaggio da logistica a bucato.
- Collaborazione multi-robot per attività coordinate, utilizzando lo stesso modello senza ruoli predefiniti.
- “Pick-up anything”: afferrare oggetti nuovi tramite prompt naturali.
- Deploy interamente onboard su GPU embedded, adatto a uso reale.
- Ottimizzazioni di S1 per logistica
- Stereo vision per percezione 3D accurata e multi-scala.
- Propriocezione visiva per autocalibrazione tra robot.
- Sport Mode: velocità aumentata del 20-50% mantenendo precisione. Anche solo 8 ore di dati possono creare policy efficaci.
Helix supera compromessi tradizionali tra generalizzazione e rapidità esecutiva, fornendo un solo modello per una vasta gamma di compiti—dalla logistica domestica alla manipolazione complessa—su hardware robotico reale.
Helix rappresenta un nuovo paradigma nella robotica VLA: un modello generalista, efficiente, deployable, che integra percezione visiva, linguaggio e controllo motorio in modo sofisticato e scalabile; infine, coniuga generalizzazione linguistica-visiva con controllo motorio fine, in un sistema unificato e prontamente deployable.