Imparare a giocare a Minecraft
con il Video PreTraining (VPT)
Abbiamo addestrato una rete neurale a riprodurre Minecraft tramite Video PreTraining (VPT) su un enorme set di dati video senza etichetta di gioco umano di Minecraft, utilizzando solo una piccola quantità di dati di appaltatori etichettati. Con la messa a punto, il nostro modello può imparare a creare utensili diamantati, un’attività che di solito richiede agli esseri umani esperti più di 20 minuti (24.000 azioni). Il nostro modello utilizza l’interfaccia umana nativa della pressione dei tasti e dei movimenti del mouse, il che lo rende abbastanza generale e rappresenta un passo verso gli agenti generici che utilizzano i computer.
 
Internet contiene un’enorme quantità di video pubblicamente disponibili da cui possiamo imparare. Puoi guardare una persona fare una presentazione meravigliosa, un artista digitale disegnare un bellissimo tramonto e un giocatore di Minecraft costruire una casa intricata. Tuttavia, questi video forniscono solo una registrazione di ciò che è accaduto ma non esattamente come è stato ottenuto, ovvero non conoscerai l’esatta sequenza dei movimenti del mouse e dei tasti premuti. Se vorremmo costruire modelli di base su larga scala in questi domini come abbiamo fatto in linguaggio con GPT , questa mancanza di etichette di azioni pone una nuova sfida non presente nel dominio linguistico, dove “etichette di azioni” sono semplicemente le parole successive in una frase.

Al fine di utilizzare la ricchezza di dati video senza etichetta disponibili su Internet, introduciamo un nuovo, ma semplice, metodo di apprendimento per imitazione semi-supervisionato: Video PreTraining (VPT). Iniziamo raccogliendo un piccolo set di dati dagli appaltatori in cui registriamo non solo i loro video, ma anche le azioni che hanno intrapreso, che nel nostro caso sono pressioni di tasti e movimenti del mouse. Con questi dati formiamo un modello a dinamica inversa (IDM), che prevede l’azione intrapresa in ogni fase del video. È importante sottolineare che l’IDM può utilizzare le informazioni passate e future per indovinare l’azione in ogni passaggio. Questo compito è molto più semplice e quindi richiede molti meno dati rispetto al compito di clonazione comportamentale di prevedere le azioni solo dati fotogrammi video passati, che richiede di dedurre ciò che la persona vuole fare e come realizzarlo. Possiamo quindi utilizzare l’IDM addestrato per etichettare un set di dati molto più ampio di video online e imparare ad agire tramite la clonazione comportamentale.


Panoramica del metodo VPT
Risultati a tiro zero del VPT
Abbiamo scelto di convalidare il nostro metodo in Minecraft perché (1) è uno dei videogiochi più giocati al mondo e quindi ha una vasta gamma di dati video disponibili gratuitamente e (2) è a tempo indeterminato con un’ampia varietà di cose da do, simile alle applicazioni del mondo reale come l’utilizzo del computer. A differenza dei precedenti lavori in Minecraft che utilizzano spazi d’azione semplificati volti a facilitare l’esplorazione, la nostra IA utilizza l’interfaccia umana nativa molto più generalmente applicabile, sebbene anche molto più difficile: framerate di 20Hz con mouse e tastiera.

Formato su 70.000 ore di video online con etichetta IDM, il nostro modello di clonazione comportamentale (il “modello di base VPT”) esegue in Minecraft compiti quasi impossibili da ottenere con l’apprendimento per rinforzo da zero. Impara ad abbattere gli alberi per raccogliere tronchi, trasformarli in tavole e poi trasformarle in un tavolo da lavoro; questa sequenza richiede a un essere umano esperto in Minecraft circa 50 secondi o 1.000 azioni di gioco consecutive.


Sequenza degli oggetti necessari per creare un tavolo da lavoro, etichettata con il tempo medio impiegato dagli esseri umani esperti per raggiungere ogni passaggio

Creazione di un tavolo da lavoro “colpo zero” (cioè solo dopo il pre-allenamento senza ulteriori regolazioni)
Inoltre, il modello esegue altre abilità complesse che gli esseri umani spesso fanno nel gioco, come nuotare, cacciare animali per il cibo e mangiare quel cibo. Ha anche imparato l’abilità del “salto del pilastro”, un comportamento comune in Minecraft di elevarsi saltando ripetutamente e posizionando un blocco sotto di sé.

 
Ottimizzazione con la clonazione comportamentale
I modelli di base sono progettati per avere un profilo di comportamento ampio ed essere generalmente in grado di affrontare un’ampia varietà di attività. Per incorporare nuove conoscenze o consentire loro di specializzarsi su una distribuzione di attività più ristretta, è pratica comune mettere a punto questi modelli su insiemi di dati più piccoli e più specifici. Come caso di studio su quanto bene il modello di base VPT possa essere messo a punto per i set di dati a valle, abbiamo chiesto ai nostri appaltatori di giocare per 10 minuti nei nuovissimi mondi di Minecraft e costruire una casa con i materiali di base di Minecraft. Speravamo che questo avrebbe amplificato la capacità del modello base di eseguire in modo affidabile abilità di “gioco iniziale” come la costruzione di tavoli da lavoro. Durante la messa a punto di questo set di dati, non solo vediamo un enorme miglioramento nell’esecuzione affidabile delle prime abilità di gioco già presenti nel modello di base, ma ma il modello perfezionato impara anche ad andare ancora più in profondità nell’albero della tecnologia realizzando strumenti sia in legno che in pietra. A volte vediamo anche la costruzione di rifugi rudimentali e l’agente che perquisisce i villaggi, comprese le razzie di casse.


Sequenza degli oggetti necessari per fabbricare un piccone di pietra, etichettata con il tempo medio impiegato dagli esseri umani esperti per raggiungere ogni passo
Migliorato il comportamento all’inizio del gioco dalla messa a punto di BC
logsplankscrafting tableswooden toolsstone tools10e-210e-110e010e110e2Crafting or collection rateZero-shot VPT foundation modelFine-tuned VPT foundation model8×59×213×
 
Ridimensionamento dei dati
Forse l’ipotesi più importante del nostro lavoro è che è molto più efficace utilizzare i dati degli appaltatori etichettati per addestrare un IDM (come parte della pipeline VPT) che addestrare direttamente un modello di fondazione BC da quello stesso set di dati di piccoli appaltatori. Per convalidare questa ipotesi, formiamo modelli di base su quantità crescenti di dati da 1 a 70.000 ore. Coloro che sono stati formati su meno di 2.000 ore di dati vengono addestrati sui dati dell’appaltatore con etichette di verità di base originariamente raccolte per addestrare l’IDM e quelli addestrati su oltre 2.000 ore vengono addestrati su dati Internet etichettati con il nostro IDM. Quindi prendiamo ogni modello di fondazione e lo adattiamo al set di dati di costruzione di case descritto nella sezione precedente.

Effetto dei dati di addestramento del modello di base sulla messa a punto
1 hour10100100010000100000Foundation training data (hours)010e-310e-210e-110e010e1Crafting or collection rateCrafting TablesWooden ToolsStone ToolsTrained oncontractor dataTrained onIDM-labeled webdata
Con l’aumento dei dati del modello di fondazione, generalmente assistiamo a un aumento della capacità di creazione e solo su una scala di dati più ampia vediamo l’emergere della creazione di strumenti in pietra.

Messa a punto con l’apprendimento per rinforzo
Quando è possibile specificare una funzione di ricompensa, l’apprendimento per rinforzo (RL) può essere un metodo potente per ottenere prestazioni elevate, potenzialmente anche superumane. Tuttavia, molte attività richiedono il superamento di dure sfide di esplorazione e la maggior parte dei metodi RL le affronta con priorità di esplorazione casuali , ad esempio i modelli sono spesso incentivati ​​ad agire in modo casuale tramite bonus di entropia. Il modello VPT dovrebbe essere molto migliore per RL perché emulare il comportamento umano è probabilmente molto più utile che intraprendere azioni casuali. Abbiamo impostato il nostro modello per l’impegnativo compito di raccogliere un piccone di diamante, una capacità senza precedenti in Minecraft resa ancora più difficile quando si utilizza l’interfaccia umana nativa.

La creazione di un piccone di diamante richiede una lunga e complicata sequenza di attività secondarie. Per rendere questo compito trattabile, premiamo gli agenti per ogni oggetto nella sequenza.



Modello VPT perfezionato di RL che realizza un piccone diamantato
Abbiamo scoperto che una politica RL addestrata da un’inizializzazione casuale (il metodo RL standard) ottiene a malapena alcuna ricompensa, non imparando mai a raccogliere registri e solo raramente raccogliendo stick. In netto contrasto, la messa a punto da un modello VPT non solo impara a creare picconi di diamante (cosa che fa nel 2,5% degli episodi di Minecraft da 10 minuti), ma ha anche una percentuale di successo a livello umano nel raccogliere tutti gli oggetti che portano a il piccone di diamante. Questa è la prima volta che qualcuno mostra un agente informatico in grado di creare strumenti diamantati in Minecraft, che richiede agli umani in media più di 20 minuti (24.000 azioni).

 
Conclusione
VPT apre la strada per consentire agli agenti di imparare ad agire guardando il gran numero di video su Internet. Rispetto alla modellazione video generativa o ai metodi contrastanti che produrrebbero solo priori rappresentativi , VPT offre l’entusiasmante possibilità di apprendere direttamente priori comportamentali su larga scala in più domini oltre al semplice linguaggio. Sebbene sperimentiamo solo in Minecraft, il gioco è molto aperto e l’interfaccia umana nativa (mouse e tastiera) è molto generica, quindi riteniamo che i nostri risultati siano di buon auspicio per altri domini simili, ad esempio l’utilizzo del computer.

Per ulteriori informazioni, consultare il nostro documento . Stiamo anche reperindo i dati degli appaltatori, l’ambiente Minecraft, il codice del modello e i pesi del modello, che speriamo possano aiutare la ricerca futura su VPT. Inoltre, quest’anno abbiamo collaborato con il concorso MineRL NeurIPS. I concorrenti possono utilizzare e mettere a punto i nostri modelli per provare a risolvere molti compiti difficili in Minecraft. Gli interessati possono controllare la pagina web della competizione e competere per un premio eccezionale di $ 100.000 oltre a un normale montepremi di $ 20.000 . Le sovvenzioni sono disponibili per gruppi e individui sottorappresentati autoidentificati.

 

 

Di ihal