Immagine AI

NVIDIA ha presentato GraspGen, un innovativo framework basato su modelli di diffusione per il controllo preciso dei movimenti delle mani di un robot in ambienti tridimensionali complessi. Questa tecnologia rappresenta un passo significativo nell’evoluzione dell’automazione, affrontando le sfide storiche legate alla presa robotica, come la generalizzazione tra diversi tipi di pinze, l’adattamento a oggetti di forme varie e la gestione di ambienti disordinati.

La capacità di un robot di afferrare oggetti in modo preciso e affidabile è fondamentale per una vasta gamma di applicazioni, dalla logistica all’assistenza domestica. Tuttavia, nonostante decenni di ricerca, raggiungere una presa stabile e universale rimane una sfida complessa. I metodi tradizionali spesso si basano su modelli rigidi che richiedono una stima accurata della posizione degli oggetti o l’acquisizione di molteplici punti di vista, risultando poco pratici in ambienti reali.

GraspGen affronta queste limitazioni utilizzando un approccio basato su modelli di diffusione, originariamente sviluppati per la generazione di immagini, adattati allo spazio tridimensionale per generare pose di presa (posizione e orientamento della presa di un oggetto) sempre più realistiche a partire da rumore casuale. Questo processo consente una maggiore flessibilità e adattabilità rispetto ai metodi precedenti.

Il cuore di GraspGen è costituito da un’architettura chiamata DiffusionTransformer, che integra la struttura di PointTransformerV3 per comprendere meglio la forma 3D dell’oggetto e prevedere diversi movimenti di presa. Rispetto al metodo precedentemente utilizzato, PointNet++, GraspGen offre una maggiore precisione e velocità, riuscendo a catturare efficacemente anche oggetti con forme complesse.

Un’altra innovazione significativa è l’introduzione di un nuovo metodo per l’addestramento del discriminatore. Poiché i movimenti di presa vengono appresi dai dati generati durante l’addestramento effettivo, il discriminatore può filtrare con maggiore precisione errori come posture scorrette o collisioni in ambienti reali. Questo approccio riduce l’utilizzo di memoria fino a 21 volte, rendendo il sistema più efficiente e scalabile.

GraspGen ha dimostrato prestazioni superiori rispetto ai modelli all’avanguardia esistenti in vari benchmark. Nella simulazione “FetchBench”, ha ottenuto un tasso di successo delle attività di circa il 17% superiore a quello di “Contact-GraspNet” e, nel benchmark “ACRONYM”, ha migliorato significativamente la diversità e la precisione della presa.

Nei test pratici, la combinazione del robot UR10 con la telecamera RealSense ha raggiunto un tasso di successo della presa dell’81,3%, con un aumento del 28% rispetto al modello M2T2 esistente. In particolare, il robot ha dimostrato la sua capacità di afferrare con precisione solo l’oggetto bersaglio, anche in ambienti complessi come carrelli della spesa, scaffali e pile di oggetti.

Per promuovere la ricerca e l’innovazione nel campo della robotica, NVIDIA ha reso GraspGen disponibile come open source su GitHub. Il framework include il codice, i modelli preaddestrati e un set di dati contenente oltre 53 milioni di impugnature simulate per 8.515 mesh di oggetti, generati utilizzando NVIDIA Isaac Sim. Questi dati sono liberamente accessibili a chiunque, favorendo la collaborazione e l’avanzamento della tecnologia a livello globale.

Di Fantasy