Figure AI ha recentemente annunciato un significativo progresso con lo sviluppo di Helix, un modello Vision-Language-Action (VLA) che consente ai robot umanoidi di eseguire compiti complessi attraverso comandi in linguaggio naturale. Questo traguardo posiziona Figure AI in vantaggio rispetto a concorrenti come OpenAI nel campo dell’intelligenza artificiale applicata alla robotica umanoide.​

Helix rappresenta una svolta nel modo in cui i robot interagiscono con l’ambiente e con gli esseri umani. Questo modello permette ai robot di comprendere e rispondere a istruzioni in tempo reale, gestire oggetti sconosciuti e collaborare tra loro senza la necessità di programmazione manuale o addestramento specifico per ogni compito. Come illustrato da Brett Adcock, fondatore di Figure AI, “Helix comprende il linguaggio, ragiona sui problemi e può afferrare qualsiasi oggetto, tutto senza bisogno di addestramento o codice specifico”.

In un video dimostrativo, due robot equipaggiati con Helix mostrano la capacità di coordinarsi attraverso comandi vocali, eseguendo azioni come “Passa il sacchetto di biscotti al robot alla tua destra” o “Ricevi il sacchetto di biscotti dal robot alla tua sinistra e posizionalo nel cassetto aperto”. Questa dimostrazione evidenzia l’abilità di Helix nel facilitare la collaborazione multi-robot e nella manipolazione di oggetti domestici senza necessità di programmazione preventiva.

Questo sviluppo arriva poco dopo l’annuncio di Figure AI di interrompere la collaborazione con OpenAI. Il 5 febbraio 2025, Brett Adcock ha comunicato la decisione di terminare l’accordo di collaborazione con OpenAI, anticipando l’introduzione di Helix come una novità senza precedenti nel campo della robotica umanoide.

Helix è il primo modello VLA in grado di controllare l’intera parte superiore del corpo di un robot umanoide, facilitare la collaborazione tra più robot e manipolare una vasta gamma di oggetti domestici. Una delle sue caratteristiche distintive è l’utilizzo di un unico set di pesi di rete neurale per apprendere comportamenti senza la necessità di un fine-tuning specifico per ogni compito. Inoltre, Helix funziona su GPU a basso consumo energetico, rendendolo una soluzione commercialmente vantaggiosa.

Durante la fase di addestramento, Helix ha utilizzato circa 500 ore di comportamenti teleoperati. Il modello VLA processa clip video dalle telecamere integrate nei robot, rispondendo a prompt come: “Quale istruzione avresti dato al robot per ottenere l’azione vista in questo video?”. Questo approccio consente a Helix di generalizzare e adattarsi a una vasta gamma di compiti senza richiedere una programmazione specifica per ciascuno.

Di Fantasy