Immagine AI

L’annuncio del modello di base robotico proprietario RLDX-1 da parte di RLWRLD segna un cambiamento di paradigma fondamentale nel settore dell’intelligenza artificiale fisica, spostando l’attenzione dalla semplice percezione visiva alla destrezza tattile avanzata. A differenza dei modelli linguistici visivi universali (VLA) tradizionali, che si basano prevalentemente sull’elaborazione di dati ottici e testuali, RLDX-1 è stato progettato seguendo la filosofia “Dexterity-First”, secondo cui la vera intelligenza artificiale si manifesta attraverso interazioni fisiche sofisticate e una manipolazione a livello umano.

Il cuore tecnologico di questo sistema risiede nella sua capacità di elaborare simultaneamente, in un unico modello integrato da 8,1 miliardi di parametri, flussi di dati eterogenei che includono non solo vista e linguaggio, ma anche coppia, tatto e memoria di lavoro. Questa integrazione permette di automatizzare compiti industriali complessi dove i segnali fisici non visibili, come la pressione di contatto o la resistenza meccanica, risultano determinanti per il successo dell’operazione.

L’architettura che rende possibile tale versatilità è denominata Multi-Stream Action Transformer (MSAT). Questa struttura si differenzia dai VLA convenzionali poiché evita di convogliare tutti i segnali in un unico trasformatore di flusso, che spesso fatica a distinguere le diverse modalità sensoriali. Al contrario, il sistema MSAT assegna flussi di elaborazione indipendenti a ogni modalità — vista, linguaggio, comportamento, tatto e memoria — per poi sintetizzarli attraverso un meccanismo di attenzione congiunta. Tale approccio consente al robot di percepire il momento esatto del contatto fisico e di dedurre i cambiamenti dinamici lungo l’asse temporale, superando i limiti strutturali dei modelli basati esclusivamente sui video, i quali non possono catturare informazioni intrinseche come lo stato delle articolazioni o la sensazione tattile.

RLDX-1 ha dimostrato una superiorità tecnologica rispetto ai principali modelli globali, superando sistemi all’avanguardia come GR00T di NVIDIA e PiZero di Physical Intelligence in molteplici benchmark. In particolare, nel test RoboCasa Kitchen, focalizzato su compiti a lungo termine che richiedono un contatto fisico costante, RLDX-1 è diventato il primo modello VLA a superare la soglia dei 70 punti. Anche in scenari reali, i risultati sono stati significativi: nei test condotti con l’umanoide ALLEX per l’attività di versamento di liquidi, che implica la gestione di variazioni dinamiche di peso, il modello ha raggiunto un tasso di successo del 70,8%, una prestazione doppia rispetto ai modelli di riferimento che si attestano mediamente intorno al 30%.

L’universalità di RLDX-1 è garantita dalla sua capacità di controllare hardware eterogeneo senza essere vincolato a un singolo dispositivo. Il modello è stato infatti addestrato e validato su piattaforme diverse, tra cui il robot Alex di WE Robotics, il braccio collaborativo Franka Research 3 e il sistema open-source OpenArm. Per facilitare l’adozione industriale e la ricerca, RLWRLD ha reso pubblici i pesi del modello e la documentazione tecnica tramite GitHub e HuggingFace, fornendo tre diverse tipologie di checkpoint, inclusi quelli di pre-addestramento e quelli specifici per piattaforma. Durante la fase di sviluppo, l’azienda ha sfruttato l’ecosistema NVIDIA, utilizzando le GPU H100 e A100 per l’addestramento e lo stack cloud-edge Jetson AGX Thor per l’inferenza in tempo reale. Il percorso futuro delineato dal CEO Ryu Joong-hee punta verso la creazione del cosiddetto “Modello del Mondo 4D+”.

Questa visione tecnologica mira a superare i limiti dei modelli del mondo basati sui dati video, che RLWRLD considera intrinsecamente incompleti per lavori manuali di alta precisione. Il modello 4D+ si propone di simulare e prevedere in modo integrato non solo ciò che accade visivamente, ma anche l’evoluzione della coppia, del contatto e dello stato fisico del robot lungo la dimensione temporale. Per validare queste capacità, l’azienda ha introdotto DexBench, un benchmark proprietario suddiviso in categorie come la precisione del contatto, la precisione temporale e la diversità di presa, con l’obiettivo di stabilire un nuovo standard industriale per la destrezza robotica globale

Di Fantasy