NVIDIA ha recentemente annunciato lo sviluppo di HOVER (Humanoid Versatile Controller), una rete neurale composta da 1,5 milioni di parametri, progettata per coordinare i movimenti dei robot umanoidi, facilitando sia la locomozione che la manipolazione di oggetti.
Jim Fan, Senior Research Manager e leader dell’Embodied AI presso NVIDIA, ha sottolineato che non tutte le reti neurali di base devono essere di grandi dimensioni. HOVER è stata addestrata utilizzando NVIDIA Isaac, una suite di simulazione potenziata da GPU che accelera le simulazioni fisiche fino a 10.000 volte più velocemente rispetto al tempo reale. Questo ha permesso al modello di completare un anno di addestramento virtuale in circa 50 minuti di tempo reale su una singola GPU, garantendo una transizione fluida alle applicazioni nel mondo reale senza necessità di ulteriori ottimizzazioni.
HOVER è in grado di rispondere a vari comandi di movimento di alto livello, inclusi:
- Posizioni di testa e mani: utilizzando dispositivi XR come l’Apple Vision Pro.
- Posizioni del corpo intero: derivanti da sistemi di motion capture o telecamere RGB.
- Angoli delle articolazioni: ottenuti da esoscheletri.
- Comandi di velocità: impartiti tramite joystick.
Inoltre, il modello offre un’interfaccia unificata per controllare robot con diversi dispositivi di input, facilitando la raccolta di dati di teleoperazione per scopi di addestramento. HOVER si integra con modelli Vision-Language-Action a monte per convertire le istruzioni di movimento in segnali motori a bassa frequenza, ed è compatibile con qualsiasi robot umanoide simulabile in Isaac, permettendo agli utenti di animare facilmente i propri robot.
Questo sviluppo segue l’annuncio di NVIDIA di Project GR00T, un modello di base generalista per robot umanoidi, progettato per comprendere il linguaggio naturale e imitare i movimenti umani attraverso l’osservazione, accelerando l’apprendimento di competenze come la coordinazione e la destrezza necessarie per interagire efficacemente nel mondo reale.