Le parole dimostrano il loro valore come strumenti di insegnamento per i robot
Sfruttare il linguaggio per l’apprendimento accelerato della manipolazione degli strumenti
Esplorando un nuovo modo di insegnare ai robot, i ricercatori di Princeton hanno scoperto che le descrizioni degli strumenti in linguaggio umano possono accelerare l’apprendimento di un braccio robotico simulato che si solleva e utilizza una varietà di strumenti.
I risultati si basano sull’evidenza che fornire informazioni più ricche durante l’addestramento all’intelligenza artificiale (AI) può rendere i robot autonomi più adattivi alle nuove situazioni, migliorandone la sicurezza e l’efficacia.
L’aggiunta di descrizioni della forma e della funzione di uno strumento al processo di addestramento per il robot ha migliorato la capacità del robot di manipolare strumenti appena incontrati che non erano nel set di addestramento originale. Un team di ingegneri meccanici e informatici ha presentato il nuovo metodo, Accelerated Learning of Tool Manipulation with LAnguage , o ATLA, alla conferenza sull’apprendimento dei robot il 14 dicembre.
I bracci robotici hanno un grande potenziale per aiutare con compiti ripetitivi o impegnativi, ma addestrare i robot a manipolare gli strumenti in modo efficace è difficile: gli strumenti hanno un’ampia varietà di forme e la destrezza e la visione di un robot non possono competere con quelle di un essere umano.
“Informazioni extra sotto forma di linguaggio possono aiutare un robot a imparare a usare gli strumenti più rapidamente”, ha affermato il coautore dello studio Anirudha Majumdar , assistente professore di ingegneria meccanica e aerospaziale a Princeton che guida l’ Intelligent Robot Motion Lab .
Il team ha ottenuto le descrizioni degli strumenti interrogando GPT-3, un modello di linguaggio di grandi dimensioni rilasciato da OpenAI nel 2020 che utilizza una forma di intelligenza artificiale chiamata deep learning per generare testo in risposta a un prompt. Dopo aver sperimentato vari suggerimenti, hanno deciso di utilizzare “Descrivi la [caratteristica] di [strumento] in una risposta dettagliata e scientifica”, dove la caratteristica era la forma o lo scopo dello strumento.
“Poiché questi modelli linguistici sono stati addestrati su Internet, in un certo senso puoi pensare a questo come a un modo diverso di recuperare tali informazioni”, in modo più efficiente e completo rispetto all’utilizzo del crowdsourcing o dello scraping di siti Web specifici per le descrizioni degli strumenti, ha affermato Karthik Narasimhan , un assistente professore di informatica e coautore dello studio. Narasimhan è un membro principale della facoltà nel gruppo di elaborazione del linguaggio naturale (NLP) di Princeton e ha contribuito al modello di linguaggio GPT originale come ricercatore in visita presso OpenAI.
Questo lavoro è la prima collaborazione tra i gruppi di ricerca di Narasimhan e Majumdar. Majumdar si concentra sullo sviluppo di politiche basate sull’intelligenza artificiale per aiutare i robot, compresi i robot volanti e ambulanti , a generalizzare le loro funzioni a nuove impostazioni, ed era curioso del potenziale dei recenti “massicci progressi nell’elaborazione del linguaggio naturale” a beneficio dell’apprendimento dei robot, ha detto.
Per i loro esperimenti di apprendimento robotico simulato, il team ha selezionato un set di addestramento di 27 strumenti, che vanno da un’ascia a una spatola. Hanno assegnato al braccio robotico quattro diversi compiti: spingere lo strumento, sollevare lo strumento, usarlo per spazzare un cilindro lungo un tavolo o martellare un piolo in un buco. I ricercatori hanno sviluppato una suite di politiche utilizzando approcci di apprendimento automatico con e senza informazioni linguistiche, quindi hanno confrontato le prestazioni delle politiche su un set di test separato di nove strumenti con descrizioni accoppiate.
Questo approccio è noto come meta-apprendimento, poiché il robot migliora la sua capacità di apprendere con ogni attività successiva. Non si tratta solo di imparare a usare ogni strumento, ma anche di “cercare di imparare a comprendere le descrizioni di ciascuno di questi cento diversi strumenti, quindi quando vede il 101esimo strumento è più veloce nell’imparare a usare il nuovo strumento”, ha affermato Narasimhan. “Stiamo facendo due cose: stiamo insegnando al robot come usare gli strumenti, ma gli stiamo anche insegnando l’inglese.”
I ricercatori hanno misurato il successo del robot nello spingere, sollevare, spazzare e martellare con i nove strumenti di test, confrontando i risultati ottenuti con le politiche che utilizzavano il linguaggio nel processo di apprendimento automatico con quelli che non utilizzavano le informazioni linguistiche. Nella maggior parte dei casi, le informazioni linguistiche offrivano vantaggi significativi per la capacità del robot di utilizzare nuovi strumenti.
Un compito che ha mostrato notevoli differenze tra le politiche è stato l’utilizzo di un piede di porco per spazzare un cilindro, o una bottiglia, lungo un tavolo, ha affermato Allen Z. Ren , un dottorato di ricerca. studente nel gruppo di Majumdar e autore principale del documento di ricerca.
“Con l’addestramento linguistico, impara ad afferrare l’estremità lunga del piede di porco e utilizzare la superficie curva per limitare meglio il movimento della bottiglia”, ha affermato Ren. “Senza la lingua, afferrava il piede di porco vicino alla superficie curva ed era più difficile da controllare.”
La ricerca è stata in parte supportata dal Toyota Research Institute (TRI) e fa parte di un più ampio progetto finanziato dal TRI nel gruppo di ricerca di Majumdar volto a migliorare la capacità dei robot di funzionare in nuove situazioni che differiscono dai loro ambienti di addestramento.
“L’obiettivo generale è far sì che i sistemi robotici, in particolare quelli addestrati utilizzando l’apprendimento automatico, si adattino a nuovi ambienti”, ha affermato Majumdar. Un altro lavoro del suo gruppo supportato da TRI ha affrontato la previsione dei guasti per il controllo dei robot basato sulla visione e ha utilizzato un approccio di “generazione dell’ambiente avverso” per aiutare le politiche dei robot a funzionare meglio in condizioni al di fuori della loro formazione iniziale.
L’articolo, Sfruttando il linguaggio per l’apprendimento accelerato della manipolazione degli strumenti , è stato presentato il 14 dicembre alla Conferenza sull’apprendimento dei robot. Oltre a Majumdar, Narasimhan e Ren, i coautori includono Bharat Govil, Princeton Class of 2022, e Tsung-Yen Yang, che ha completato un dottorato di ricerca. in ingegneria elettrica a Princeton quest’anno ed è ora uno scienziato dell’apprendimento automatico presso Meta Platforms Inc.
Oltre al TRI, il supporto alla ricerca è stato fornito dalla US National Science Foundation, dall’Office of Naval Research e dalla School of Engineering and Applied Science dell’Università di Princeton grazie alla generosità di William Addy ’82.