Il settore della robotica sta vivendo un cambio di paradigma fondamentale, allontanandosi dai metodi tradizionali per abbracciare approcci ispirati al modo in cui gli esseri umani comprendono il mondo. Fino ad oggi, la maggior parte dei robot avanzati si è basata sul modello Visione-Linguaggio-Azione (VLA), una tecnologia che cerca di collegare direttamente ciò che il robot vede e le istruzioni verbali alle azioni fisiche dei suoi motori. Tuttavia, questo sistema presenta limiti evidenti: richiede decine di migliaia di ore di dati specifici e costosi per insegnare compiti che per noi sono banali, poiché fatica a comprendere le dinamiche fisiche dello spazio e del movimento. Per superare queste barriere, la startup norvegese 1X ha presentato una soluzione innovativa chiamata 1XWM, un modello mondiale che non si limita a reagire agli stimoli, ma impara a “immaginare” il futuro attraverso i video.
Il concetto alla base di 1XWM è affascinante nella sua semplicità: il robot impara a muoversi guardando come il mondo cambia nei filmati. Invece di mappare ogni singolo comando articolare, il sistema riceve un input testuale che descrive un’attività e genera internamente un video che mostra il robot mentre esegue correttamente quel compito. In pratica, l’intelligenza artificiale simula visivamente lo svolgimento dell’azione prima ancora di compierla fisicamente. Questo processo è reso possibile dall’apprendimento su vastissimi database video tratti da Internet, come YouTube, che permettono al robot di assorbire le leggi della fisica e le interazioni tra gli oggetti osservando gli esseri umani in contesti reali.
Per trasformare queste “visioni” in movimenti concreti, 1X utilizza un componente chiamato Modello Dinamico Inverso. Questo strumento analizza il video generato fotogramma per fotogramma, calcola lo spostamento dei pixel e traduce quelle variazioni visive nei movimenti millimetrici delle articolazioni del robot. Il vantaggio di questo approccio è enorme: la struttura del robot umanoide Neo, sviluppato dalla stessa azienda, è progettata per rispecchiare quella umana, facilitando enormemente il trasferimento delle conoscenze apprese dai video di persone reali ai movimenti meccanici dell’attuatore. Il robot non deve più essere addestrato da zero per ogni ambiente; grazie alla capacità di generalizzazione derivata dalla generazione video, può adattarsi a nuovi oggetti e stanze mai visti prima.
L’efficacia di questo metodo è stata dimostrata nei test sul campo. Il robot Neo ha mostrato miglioramenti significativi in compiti complessi come l’estrazione di fazzoletti da una scatola, un gesto che richiede una coordinazione delicata. Si è scoperto che maggiore è la qualità del video “immaginato” dal modello, maggiore è il tasso di successo dell’azione reale. Addirittura, il robot ha iniziato a eseguire movimenti non previsti nei dati di addestramento, come l’uso simultaneo di entrambe le mani o interazioni spontanee con gli esseri umani, dimostrando una flessibilità che i modelli rigidi del passato non potevano offrire.
Nonostante questi progressi entusiasmanti, rimangono sfide tecniche da risolvere, soprattutto per quanto riguarda la velocità di elaborazione. Attualmente, il sistema impiega circa undici secondi per generare una sequenza video di soli cinque secondi, un tempo troppo lungo per consentire risposte fluide in tempo reale. L’obiettivo futuro di 1X è quello di potenziare la memoria del robot e creare un ciclo di auto-miglioramento: i dati raccolti da Neo durante l’uso domestico verranno inviati al modello centrale per perfezionarlo, permettendo al robot di imparare dall’esperienza diretta proprio come un bambino.
A differenza di molte altre aziende focalizzate sull’industria pesante, 1X punta direttamente al mercato domestico. Il robot Neo è progettato per essere un compagno sicuro, rivestito di fibre morbide per attutire eventuali urti e proteggere le persone con cui interagisce. Con i primi test già avviati in case reali e una distribuzione commerciale prevista per il 2026 a un prezzo competitivo, il futuro in cui un robot potrà imparare a gestire ogni faccenda domestica semplicemente osservando e immaginando il movimento sembra essere sempre più vicino.
