DeepMind svela MuZero, un nuovo agente che ha dominato gli scacchi, Shogi, Atari e va senza conoscere le regole
I giochi sono diventati uno dei veicoli più efficienti per la valutazione di algoritmi di intelligenza artificiale (AI). Per decenni, i giochi hanno creato una complessa competizione, collaborazione, pianificazione e dinamiche strategiche che riflettono i compiti più sofisticati che gli agenti dell’IA affrontano nel mondo reale. Da Chess a Go fino a StarCraft, i giochi sono diventati un ottimo laboratorio per valutare le capacità degli agenti di intelligenza artificiale in modo sicuro e responsabile. Tuttavia, la maggior parte di quelle grandi pietre miliari è iniziata con agenti addestrati sulle regole del gioco. Esiste un sottoinsieme complementare di scenari in cui agli agenti viene presentato un nuovo ambiente senza una conoscenza preliminare delle sue dinamiche. Recentemente, DeepMind ha pubblicato un documento di ricerca che svela MuZero, un agente AI che ha dominato diversi giochi di strategia imparando le regole da zero.
L’idea di agenti di intelligenza artificiale che possono apprendere le dinamiche di un nuovo ambiente è una somiglianza dei nostri processi cognitivi come umani. Immagina un bambino che ha scoperto un nuovo gioco nel suo IPad. Senza conoscere le regole, il bambino inizierà a giocare e tirerà indietro le mosse sbagliate fino a quando non avrà una mano sul gioco. Queste stesse dinamiche possono essere estrapolate a scenari come la progettazione di politiche economiche, strategie di gestione delle crisi o persino guerre. Nel campo AI, l’apprendimento per rinforzo è emerso come la disciplina più popolare per padroneggiare i giochi di strategia. Nell’ambito dell’apprendimento per rinforzo, esiste un cosiddetto apprendimento per rinforzo basato su modelli che si concentra precisamente su scenari in cui gli agenti devono comprendere un nuovo ambiente prima di padroneggiare compiti specifici al suo interno.
Apprendimento del rinforzo basato sul modello
L’apprendimento per rinforzo moderno è diviso in due scuole principali: senza modelli e basate su modelli. Illustriamo questi due approcci in un semplice scenario in cui stai cercando di imparare ad andare in bicicletta per fare un rapido viaggio a casa di un amico. Il primo passo del tuo viaggio sarebbe imparare a guidare la bici stessa. Puoi farlo guardando video di YouTube o leggendo libri che potrebbero richiedere molto tempo. In alternativa, puoi seguire il tuo istinto e sperare in bici e provare fino a quando non capirai come guidare. Dopodiché, devi capire come arrivare a casa del tuo amico. In questo caso, tentativi ed errori puri potrebbero non portarti così lontano e avresti bisogno di un po ‘di pianificazione dalle tue applicazioni cartografiche preferite. Questa semplificazione eccessiva mostra una differenza chiave tra gli agenti di apprendimento del rinforzo senza modello e basati sul modello.
In scenari privi di modelli, l’agente di apprendimento del rinforzo opera conoscendo le dinamiche dell’ambiente. Tecnicamente, nell’apprendimento del rinforzo senza modelli, le azioni sono campionate da alcune politiche che sono ottimizzate indirettamente attraverso la ricerca diretta delle politiche (gradienti delle politiche), una funzione di valore dello stato (Q-learning) o una combinazione di queste (Attore critico). Negli scenari del mondo reale è difficile implementare metodi privi di modelli perché gli attuali algoritmi all’avanguardia richiedono milioni di campioni prima di apprendere qualsiasi politica ottimale.
Gli scenari di apprendimento del rinforzo basati su modelli si concentrano sull’apprendimento di un modello predittivo dell’ambiente reale utilizzato per apprendere il controllore di un agente. Gli algoritmi di apprendimento del rinforzo basati su modello utilizzano un numero ridotto di interazioni con l’ambiente reale durante la fase di apprendimento. Il suo scopo è quello di costruire un modello basato su queste interazioni e quindi utilizzare questo modello per simulare ulteriori episodi, non nell’ambiente reale ma applicandoli al modello costruito e ottenere i risultati restituiti da quel modello. Dal punto di vista tecnico, un agente di apprendimento del rinforzo basato su modello è rappresentato da un processo decisionale di Markov costituito da due componenti: un modello di transizione di stato, che prevede lo stato successivo e un modello di ricompensa, che prevede la ricompensa prevista durante tale transizione. Il modello è in genere condizionato dall’azione selezionata o da un comportamento temporalmente astratto come un’opzione. L’apprendimento per rinforzo basato su modello è stato il fondamento di importanti innovazioni nell’apprendimento per rinforzo comeApri agenti AI Dota2 e DeepMind’s Quake III , AlphaGo o AlphaStar .
Negli ultimi anni, DeepMind ha avuto diverse scoperte nei giochi di strategia, tra cui il famoso AlphaZero , un agente di apprendimento del rinforzo privo di modelli in grado di padroneggiare scacchi, shogi e andare. AlphaZero ha il vantaggio di conoscere le regole di ogni gioco a cui è stato assegnato il compito di giocare. Le stesse prestazioni potrebbero essere ottenute con l’apprendimento per rinforzo basato su modelli?
MuZero
MuZero sfrutta l’apprendimento per rinforzo basato su modelli per prevedere quegli aspetti del futuro che sono direttamente rilevanti per la pianificazione. Il modello riceve l’osservazione (ad esempio un’immagine della scheda Go o della schermata Atari) come input e la trasforma in uno stato nascosto. Lo stato nascosto viene quindi aggiornato iterativamente da un processo ricorrente che riceve il precedente stato nascosto e un’ipotetica azione successiva. Ad ognuna di queste fasi il modello prevede la politica (ad esempio la mossa da giocare), la funzione valore (ad esempio il vincitore previsto) e la ricompensa immediata (ad esempio i punti segnati giocando una mossa). Il modello è addestrato end-to-end, con l’unico obiettivo di stimare con precisione queste tre importanti quantità, in modo da abbinare le migliori stime della politica e del valore generato dalla ricerca e la ricompensa osservata.
Simile ad AlphaZero, il processo di pianificazione di MuZero si basa su due componenti separate: un simulatore implementa le regole del gioco, che vengono utilizzate per aggiornare lo stato del gioco mentre si attraversa l’albero di ricerca; e una rete neurale prevede congiuntamente la politica e il valore corrispondenti di una posizione della scheda prodotta dal simulatore. L’intera conoscenza dell’ambiente viene acquisita dalla rete neurale e utilizzata nelle fasi successive. La figura seguente mostra come MuZero apprende (A) e usa (B) l’ambiente, nonché come forma (C) il modello.
MuZero in azione
DeepMind ha allenato MuZero in Go, Chess e Shogi e tutti e 57 i giochi nell’Atari Learning Environment con risultati notevoli. Ad esempio, in Go, MuZero ha leggermente superato le prestazioni di AlphaZero, nonostante abbia utilizzato meno calcoli per nodo nella struttura di ricerca (16 blocchi residui per valutazione in MuZero rispetto ai 20 blocchi in AlphaZero). Ciò suggerisce che MuZero potrebbe memorizzare nella cache il suo calcolo nella struttura di ricerca e utilizzare ogni ulteriore applicazione del modello di dinamica per ottenere una comprensione più profonda della posizione. Allo stesso modo, Atari, MuZero ha raggiunto un nuovo stato dell’arte sia per il punteggio medio normale che per quello mediano nei 57 giochi dell’Arcade Learning Environment, superando il precedente metodo all’avanguardia R2D2.
La figura seguente mostra le prestazioni di MuZero nei quattro ambienti target. io. L’asse x mostra milioni di passaggi di allenamento. Per gli scacchi, lo shogi e il Go, l’asse y mostra il rating Elo, stabilito giocando contro AlphaZero. Le prestazioni in Atari sono state valutate usando 50 simulazioni ogni quattro fasi, quindi ripetendo l’azione scelta quattro volte, come nel lavoro precedente usando 800 simulazioni per mossa per entrambi i giocatori. L’Elo di MuZero è indicato dalla linea blu, l’Elo di AlphaZero dalla linea arancione orizzontale.
MuZero rappresenta un’importante pietra miliare per la scuola di apprendimento per rinforzo in quanto ha dimostrato che è possibile ottenere prestazioni sovrumane in compiti strategici senza avere una conoscenza preliminare dell’ambiente. MuZeo ha mostrato la sua efficienza in giochi logicamente complessi come gli scacchi, il go e lo shogi e in ambienti visivamente complessi come Atari. I principi di MuZero possono essere applicati a molte attività di AI critiche in ambienti del mondo reale.