Immagine AI

Un gruppo di ricerca del KAIST guidato dal professor Dae-Hyeong Park ha sviluppato DiSPo, acronimo di Diffusion State Space Policy, un modello per l’apprendimento robotico progettato per generare movimenti di precisione anche quando le dimostrazioni disponibili sono poche e registrate a bassa frequenza. Il sistema affronta un limite comune nelle policy robotiche basate su imitazione: per addestrare un braccio a eseguire operazioni come inserire un componente in una sede stretta, premere un pulsante o attraversare un varco con margini minimi, normalmente servono grandi quantità di traiettorie raccolte a frequenze elevate.

DiSPo combina un modello a diffusione, utilizzato per generare sequenze di azioni, con un State Space Model basato su Mamba, architettura pensata per elaborare serie temporali in modo efficiente. Il modello non apprende soltanto una traiettoria fissa, ma una rappresentazione dell’azione disponibile a più risoluzioni temporali. In questo modo può partire da dimostrazioni relativamente grossolane e produrre, quando necessario, movimenti più fitti e controllati nei passaggi che richiedono accuratezza.

L’addestramento avviene in due fasi. Nella prima fase di pretraining, le dimostrazioni vengono sottocampionate a diverse frequenze per creare versioni della stessa azione con livelli differenti di dettaglio temporale. Il modello viene addestrato insieme a un coefficiente di scala che indica il livello di precisione richiesto, imparando così a generare azioni a risoluzione variabile. Nella seconda fase, DiSPo produce pseudo-dimostrazioni ad alta frequenza a partire dalle sequenze a bassa frequenza e le riutilizza insieme ai dati originali per affinare la policy. Questo permette di ricostruire pattern di movimento rapidi e dettagliati anche quando non erano presenti in modo esplicito nelle registrazioni iniziali.

Durante l’inferenza, il livello di precisione può essere imposto dall’operatore oppure scelto automaticamente dal sistema in base alla situazione osservata. In uno spazio libero il robot può generare azioni a bassa frequenza, riducendo il numero di step e il costo computazionale. Quando invece rileva una fase delicata, come il passaggio attraverso un’apertura o l’allineamento con un pulsante, può aumentare la densità temporale delle azioni e controllare il movimento in intervalli più piccoli. L’obiettivo è concentrare il calcolo nei segmenti dove un errore di pochi millimetri può compromettere l’intera operazione.

Nei test di simulazione, DiSPo è stato valutato su tre attività: attraversamento di un clamp, passaggio in un corridoio stretto e pressione di un pulsante. Il modello ha superato i metodi di riferimento in tutte le condizioni di frequenza delle dimostrazioni, comprese acquisizioni comprese tra 2,5 e 20 Hz. Il risultato più significativo riguarda i dati a 2,5 Hz: mentre i modelli comparati hanno registrato quasi sempre fallimenti, DiSPo ha mantenuto una percentuale di successo superiore all’81%.

In un ambiente di addestramento multi-risoluzione dedicato alla pressione di pulsanti, il sistema ha raggiunto il 93% di successo. I ricercatori hanno poi verificato il metodo su un robot industriale UR5e in ambiente reale. Il braccio ha completato il passaggio di un clamp con un margine di circa 2,5 millimetri e ha eseguito la pressione di un pulsante di otturatore in modo stabile. Secondo il KAIST, in alcune configurazioni il modello ha ottenuto risultati fino a quattro volte superiori rispetto alle policy di confronto.

Il valore pratico di DiSPo sta nella riduzione della quantità di dati necessaria per insegnare azioni di precisione. In molte applicazioni industriali, la raccolta di dimostrazioni ad alta frequenza richiede teleoperazione, motion capture, sensori aggiuntivi o lunghi cicli di registrazione e validazione. Un sistema capace di apprendere da sequenze meno dense e di aumentare autonomamente la precisione soltanto dove serve potrebbe rendere più rapida la creazione di policy per assemblaggio di componenti, collegamento di cavi, lavorazioni fini, operazioni medicali assistite e compiti di manipolazione in ambienti variabili.

Di Fantasy