COME L’IA HA SUPERATO GLI UMANI GIOCANDO A FLAPPY BIRD GAME

L’apprendimento per rinforzo ha superato le prestazioni a livello umano quando si tratta di giocare. I giochi come banco di prova hanno domini ricchi e stimolanti per testare algoritmi di apprendimento per rinforzo che iniziano con una raccolta di giochi e implementazioni ben note di apprendimento per rinforzo .

L’apprendimento per rinforzo è utile quando abbiamo bisogno di un agente per svolgere un compito specifico, ma per essere precisi, non esiste un metodo “corretto” per realizzarlo. In un articolo, il ricercatore Kevin Chen ha dimostrato che l’ apprendimento approfondito dei rinforzi è molto efficace nell’apprendimento del gioco Flappy Bird, nonostante l’input sensoriale ad alta dimensione.

Secondo il ricercatore, l’obiettivo di questo progetto è ottenere una politica per avere un agente in grado di giocare con successo al gioco degli uccelli. Flappy Bird è un popolare gioco per dispositivi mobili in cui un giocatore cerca di mantenere in vita l’uccello il più a lungo possibile mentre l’uccello si agita e naviga attraverso i tubi. L’uccello cade automaticamente verso terra a causa della gravità, e se colpisce il terreno, muore e il gioco termina.

Per ottenere un punteggio elevato, il giocatore deve mantenere in vita l’uccello il più a lungo possibile durante la navigazione attraverso ostacoli – tubi. Inoltre, addestrare un agente a giocare con successo è particolarmente impegnativo perché il motivo dietro questa attività è di fornire all’agente solo informazioni sui pixel e il punteggio.

AI che gioca a Flappy Bird
Il ricercatore non ha fornito informazioni sull’aspetto dell’uccello o delle condotte all’agente e l’agente deve apprendere queste rappresentazioni e utilizzare direttamente input e punteggio per sviluppare una strategia ottimale.

L’obiettivo dell’apprendimento per rinforzo è sempre quello di massimizzare il valore atteso del payoff totale o il rendimento atteso. In questa ricerca, l’agente ha utilizzato una rete neurale convoluzionale (CNN) per valutare la funzione Q per una variante di Q-learning.

L’approccio utilizzato qui è l’apprendimento Q profondo in cui una rete neurale viene utilizzata per approssimare la funzione Q. Come accennato, questa rete neurale è una rete neurale convoluzionale che può anche essere chiamata Deep Q-Network (DQN) .

Secondo il ricercatore, un problema che si presenta nel Q-learning tradizionale è che le esperienze da frame consecutivi dello stesso episodio, il che significa che una corsa dall’inizio alla fine di un singolo gioco è molto correlata. Ciò, di conseguenza, ostacola il processo di formazione e porta a una formazione inefficiente. Per mitigare questo problema e correlare le esperienze, il ricercatore ha utilizzato il metodo di riproduzione dell’esperienza per memorizzare ogni esperienza nella memoria di riproduzione di ogni frame.

Dietro Deep Q-Network
La funzione Q in questo approccio è approssimata da una rete neurale convoluzionale, in cui questa rete accetta come input un’immagine di 84 × 84 × historyLength e ha un singolo output per ogni possibile azione.

Il primo strato è uno strato di convoluzione con 32 filtri di dimensioni 8 × 8 con falcata 4, seguito da una non linearità rettificata. Il secondo strato è anche uno strato di convoluzione di 64 filtri di dimensione 4 × 4 con falcata 2, seguito da un’altra unità lineare rettificata. Il terzo strato di convoluzione ha 64 filtri di dimensioni 3 × 3 con il passo 1, seguito da un’unità lineare rettificata. A seguito di questi livelli, il ricercatore ha realizzato un livello completamente collegato con 512 uscite insieme a un livello di uscita che è anche completamente collegato con una singola uscita per ogni azione.

Riassunto
La metrica per valutare le prestazioni del DQN è il punteggio di gioco, cioè il numero di tubi passati dall’uccello. Secondo il ricercatore, il Deep Q-Network addestrato ha giocato estremamente bene e si è persino comportato meglio degli umani. Rispetto ai giocatori umani, i punteggi per umani e DQN sono entrambi infiniti per le difficoltà facili e medie, mentre il DQN è migliore di un giocatore umano perché non deve fare una pausa e può giocare per più di 10 ore in un tratto .

Di ihal