Un fiorente sottocampo dell’IA si concentra sull’utilizzo di modelli per migliorare le prestazioni dei robot che seguono le istruzioni fornite dalle persone. Questi modelli generano indicazioni (ad es. “Salite le scale ed entrate nella prima stanza a sinistra”) che apparentemente migliorano le prestazioni di navigazione dei robot in ambienti simulati e reali. Ma uno studio coautore dei ricercatori di Google rileva che i modelli funzionano solo leggermente meglio delle tecniche basate su modelli che non si basano sull’intelligenza artificiale. Inoltre, i coautori affermano che i benchmark del linguaggio naturale tra cui BLEU, ROUGE, METEOR e CIDEr sono inefficaci per valutare la qualità delle istruzioni di navigazione che i modelli generano.
I robot che seguono le istruzioni in linguaggio naturale potrebbero essere utili in una serie di contesti, come il magazzino industriale, dove i lavoratori potrebbero non avere le mani libere per il controllo dell’uomo. Sono anche un potenziale adattamento per strutture di assistenza come le case di cura, dove i pazienti e gli operatori sanitari potrebbero istruire i robot a eseguire compiti con comandi verbali. L’ex CEO di Misty Robotics, Tim Enwall, ha previsto che ogni casa e ogni ufficio avrà un robot entro 20 anni. D’altra parte, realisti come Ken Goldberg, professore all’Università della California, Berkeley, prevedono che passeranno 5-10 anni prima di vedere un robot domestico prodotto in serie che può rimorchiare dopo i bambini, ordinare mobili, preparare i pasti e svolgere altre faccende domestiche.
I coautori di Google affermano che i loro esperimenti mostrano che gli sforzi per migliorare i generatori di istruzioni di navigazione sono stati ostacolati dalla mancanza di metriche di valutazione adeguate. Con l’eccezione di SPICE, un benchmark per i sottotitoli di imaging proposto per la prima volta dai ricercatori affiliati alla Australian National University e alla Macquarie University, i coautori hanno scoperto che nessuna delle metriche standard era correlata ai risultati dei tentativi di orientamento umano.
“I generatori di istruzioni esistenti hanno notevoli margini di miglioramento”, hanno scritto i ricercatori in un documento descrivendo in dettaglio il loro lavoro. “I nostri risultati sono un promemoria tempestivo che le metriche di valutazione testuale dovrebbero essere sempre convalidate rispetto ai giudizi umani quando applicate a nuovi domini”.
Per affrontare questo problema, i ricercatori hanno sviluppato un modello di “compatibilità traiettoria istruzione” che sostengono supera le metriche di valutazione automatica esistenti senza bisogno di istruzioni di riferimento. Dicono che possa essere utilizzato in un ambiente di apprendimento di rinforzo o per scoprire istruzioni di navigazione con filtri di alta qualità, tra gli altri casi d’uso.
“Le persone [ma non le macchine] sono piene di risorse e possono riuscire a seguire istruzioni di scarsa qualità spendendo ulteriori sforzi … I progressi nella generazione del linguaggio naturale stanno aumentando la domanda di metriche di valutazione in grado di valutare con precisione il testo generato in una varietà di domini”, hanno scritto i ricercatori . “La generazione di istruzioni di navigazione radicate è una delle direzioni più promettenti per migliorare le prestazioni di … wayfinding [robot] e un compito di generazione del linguaggio impegnativo e importante a sé stante.”