Helix è un modello Vision-Language-Action (VLA) avanzato sviluppato da Figure AI, progettato per controllare in modo continuo e a basso livello l’intero torso superiore di robot umanoidi (polsi, dita, torso, testa). È il primo modello di questo tipo e rappresenta una svolta nel campo della robotica generalista.

Architettura “System 1 / System 2”:

  • System 2 (S2): modello VLM con circa 7 miliardi di parametri, pre-addestrato su dati internet-scale. Opera a 7–9 Hz e interpreta scene visive, linguaggio e stato del robot per generare un vettore latente semantico (“goal vector”).
  • System 1 (S1): trasformatore visuo-motorio con circa 80 milioni di parametri, funziona a 200 Hz. Riceve il vettore prodotto da S2 insieme alle immagini e allo stato robotico, traducendo il tutto in comandi continui per dita, polso, torso e testa.

I due sistemi sono addestrati end-to-end tramite backpropagation, permettendo comunicazione fluida e aggiornamenti indipendenti.

Helix è stato addestrato con circa 500 ore di dati raccolti da teleoperazione di robot umanoidi. Un modello VLM produce descrizioni linguistiche automatiche (auto-etichettatura) dei comportamenti eseguiti nel video (“hindsight description”). Nonostante la quantità relativamente contenuta, Helix dimostra forte capacità di generalizzazione.

Capacità dimostrate:

  • Manipolazione dexterous di asciugamani deformabili, senza modelli geometrici predefiniti.
  • Nessuna modifica hardware o architetturale tra compiti diversi: basta cambiare il dataset, come nel passaggio da logistica a bucato.
  • Collaborazione multi-robot per attività coordinate, utilizzando lo stesso modello senza ruoli predefiniti.
  • “Pick-up anything”: afferrare oggetti nuovi tramite prompt naturali.
  • Deploy interamente onboard su GPU embedded, adatto a uso reale.
  • Ottimizzazioni di S1 per logistica
  • Stereo vision per percezione 3D accurata e multi-scala.
  • Propriocezione visiva per autocalibrazione tra robot.
  • Sport Mode: velocità aumentata del 20-50% mantenendo precisione. Anche solo 8 ore di dati possono creare policy efficaci.

Helix supera compromessi tradizionali tra generalizzazione e rapidità esecutiva, fornendo un solo modello per una vasta gamma di compiti—dalla logistica domestica alla manipolazione complessa—su hardware robotico reale.

Helix rappresenta un nuovo paradigma nella robotica VLA: un modello generalista, efficiente, deployable, che integra percezione visiva, linguaggio e controllo motorio in modo sofisticato e scalabile; infine, coniuga generalizzazione linguistica-visiva con controllo motorio fine, in un sistema unificato e prontamente deployable.

Di Fantasy