Negli ultimi tempi, abbiamo assistito a notevoli progressi nella creazione di sistemi robotici capaci di comprendere e eseguire istruzioni provenienti da testi o immagini, grazie ai miglioramenti nei modelli linguistici e visivi. Tuttavia, esistono delle limitazioni nell’utilizzo di istruzioni basate sul linguaggio e sulle immagini.
Un recente studio condotto da ricercatori della Stanford University e Google DeepMind ha proposto l’utilizzo degli schizzi come istruzioni per i robot. Gli schizzi offrono una ricca fonte di informazioni spaziali, consentendo ai robot di svolgere compiti senza essere confusi dalla complessità delle immagini realistiche o dall’ambiguità del linguaggio naturale.
Il team ha sviluppato RT-Sketch, un modello che utilizza gli schizzi per controllare i robot. Questo modello ha dimostrato di essere altrettanto efficace dei modelli basati sul linguaggio e sull’immagine in situazioni normali e addirittura superiore in situazioni dove gli obiettivi non possono essere chiaramente espressi tramite linguaggio o immagini.
Il linguaggio può risultare ambiguo per compiti che richiedono manipolazioni precise, mentre le immagini potrebbero contenere troppi dettagli o non essere disponibili in anticipo. Gli schizzi, invece, offrono una via di mezzo, fornendo informazioni spaziali dettagliate in modo minimale e facile da comprendere.
RT-Sketch è stato addestrato utilizzando un dataset che include registrazioni di dimostrazioni teleoperate in realtà virtuale. Per generare gli schizzi, i ricercatori hanno utilizzato una rete generativa avversaria (GAN) per creare schizzi dalle immagini delle dimostrazioni. Il modello addestrato è in grado di interpretare gli schizzi dell’obiettivo desiderato e generare comandi per i robot per raggiungere tale obiettivo.
Questo approccio si è dimostrato efficace in varie situazioni di manipolazione, come spostare oggetti, aprire e chiudere cassetti e altro ancora. RT-Sketch ha dimostrato di essere particolarmente utile in scenari dove le istruzioni linguistiche sono ambigue o dove l’ambiente è pieno di distrazioni visive.
In futuro, gli schizzi potrebbero essere integrati con altre modalità di input, come linguaggio, immagini e gesti umani, per migliorare ulteriormente le capacità dei robot. Questo studio apre la strada a nuove e promettenti applicazioni nella robotica, sfruttando al meglio le potenzialità degli schizzi come strumento di comunicazione con i robot.