I ricercatori del MIT hanno sviluppato un nuovo modello chiamato “Heterogeneous Pretrained Transformers” (HPT), progettato per addestrare i robot su una vasta gamma di compiti, integrando enormi quantità di dati eterogenei provenienti da diverse fonti in un unico sistema.

I ricercatori hanno pubblicato un articolo in archivio su HPT, un modello di intelligenza artificiale basato su trasformatori che unisce diverse modalità e dati di dominio. HPT è ispirato ai metodi di addestramento dei modelli linguistici di grandi dimensioni (LLM), come il “GPT-4”.

I LLM vengono pre-addestrati su una grande varietà di dati testuali e successivamente perfezionati con un numero ridotto di dati specifici per attività. Questo processo è relativamente semplice, poiché tutti i dati sono frasi. Tuttavia, i dati dei robot sono disponibili in forme diverse, come immagini provenienti da telecamere, istruzioni vocali e mappe di profondità. Inoltre, ogni robot ha bracci, pinze e sensori di vari tipi, con caratteristiche meccaniche diverse e ambienti di raccolta variabili.

I ricercatori hanno affermato che, a differenza dei modelli linguistici, i dati dei robot sono altamente eterogenei e quindi richiedono una nuova architettura per il pre-addestramento simile a quello degli LLM. Per raggiungere questo obiettivo, l’architettura del trasformatore, il cuore degli LLM, è stata integrata nel modello HPT, dove sono stati elaborati gli input visivi e propriocettivi del robot.

I ricercatori hanno classificato i dati visivi e propriocettivi come “simboli” che il trasformatore può elaborare, rappresentando ogni input con un numero fisso di token. Questo permette al trasformatore di mappare gli input in uno spazio condiviso, creando un grande modello pre-addestrato mentre elabora e apprende più dati. In generale, più grande è il trasformatore, migliori sono le prestazioni.

Gli utenti devono fornire solo una piccola quantità di dati sulle attività del robot nell’HPT, il quale apprende nuovi compiti utilizzando le conoscenze acquisite durante il pre-addestramento. Questo approccio consente di addestrare il robot a svolgere una serie di compiti senza dover ripartire da zero ogni volta.

I ricercatori hanno identificato la creazione di un ampio set di dati per il pre-addestramento dei trasformatori come la sfida principale nello sviluppo dell’HPT. Questo set include 52 set di dati in quattro categorie, compresi video e simulazioni dimostrative, e oltre 200.000 traiettorie di robot. Hanno anche sviluppato un metodo per convertire i segnali propriocettivi da vari sensori in token elaborabili da un trasformatore. La propriocezione è fondamentale per consentire movimenti diversi e nell’HPT, dove il numero di token di input rimane costante, la propriocezione riceve la stessa importanza della visione.

Dai test effettuati, le prestazioni dei robot con HPT sono migliorate di oltre il 20% nelle attività simulate e reali rispetto all’addestramento da zero. Inoltre, HPT ha dimostrato di migliorare le prestazioni anche quando le attività differivano significativamente dai dati di pre-addestramento.

In questo modo, HPT offre un nuovo approccio per addestrare una singola politica per vari tipi di robot, organizzando dati provenienti da diversi settori e modalità, come sensori visivi e codificatori di posizione del braccio, in un linguaggio comune comprensibile dai modelli di intelligenza artificiale.

I ricercatori hanno sottolineato che questo approccio consente di addestrare i robot utilizzando diversi set di dati e amplia notevolmente la quantità di dati su cui i metodi di apprendimento possono essere addestrati. Inoltre, poiché emergono continuamente nuovi progetti di robot, questo modello può adattarsi rapidamente a nuove tipologie.

Di Fantasy