Dopo Go and Chess, l’IA è tornata per sconfiggere i semplici umani, questa volta è Stratego
DeepNash è arrivato terzo in classifica, sulla base di 50 partite classificate contro i migliori giocatori umani nel corso di due settimane nell’aprile 2022
Deepmind è stato il pioniere nella creazione di modelli di intelligenza artificiale che hanno la capacità di imitare la capacità cognitiva di un essere umano di giocare. I giochi sono un banco di prova comune per valutare l’abilità di un modello. Dopo aver imparato giochi come Go, Chess e Checkers, Deepmind ha lanciato DeepNash, un modello di intelligenza artificiale in grado di giocare a Stratego a livello di esperti.
Padroneggiare un gioco come “Stratego” è un risultato significativo per la ricerca sull’intelligenza artificiale perché rappresenta un punto di riferimento impegnativo per l’apprendimento delle interazioni strategiche su vasta scala. La complessità di Stratego si basa su due aspetti chiave. In primo luogo, ci sono 10535 possibili stati nel gioco, che è esponenzialmente più grande del poker Texas hold ‘em (10164 stati) e Go (10360 stati). La seconda è che all’inizio del gioco, qualsiasi situazione in Stratego richiede il ragionamento su 1066 possibili schieramenti per ogni giocatore.
DeepNash impara a giocare a Stratego in modo autonomo, senza modelli, senza bisogno di dimostrazioni umane. DeepNash supera le prestazioni dei precedenti agenti di intelligenza artificiale all’avanguardia e ottiene prestazioni da esperti a livello umano nella variante più complessa del gioco, Stratego Classic.
L’equilibrio di Nash
DeepNash, al suo interno, si basa su un algoritmo di apprendimento per rinforzo senza modello chiamato Regularized Nash Dynamics (R-NaD).
DeepNash combina il concetto di R-NaD con la sua architettura di rete neurale profonda e converge a un “equilibrio di Nash” approssimativo modificando direttamente le dinamiche di apprendimento multi-agente sottostanti. Con questa tecnica, DeepNash è stato in grado di battere i metodi di intelligenza artificiale all’avanguardia esistenti in Stratego, raggiungendo persino il miglior ranking di tutti i tempi al 3 ° posto sulla piattaforma di gioco Gravon contro giocatori esperti umani.
Approccio di apprendimento di Deepesh
DeepNash utilizza un approccio end-to-end per sfruttare l’apprendimento della fase di distribuzione. Il modello utilizza l’apprendimento per rinforzo profondo accoppiato con un approccio di gioco teorico in questa fase. L’obiettivo del modello è imparare ad approssimare l’equilibrio di Nash attraverso il gioco autonomo. Questa tecnica garantisce che l’agente si comporterà bene anche contro un avversario nel peggiore dei casi.
Stratego sfida computazionalmente tutte le tecniche di ricerca esistenti a causa dell’intrattabilità dello spazio di ricerca. Per risolvere questo problema, DeepNash utilizza un percorso ortogonale senza ricerca e propone un nuovo metodo (R-Nad). Questo nuovo modello combina l’apprendimento per rinforzo senza modello nel gioco autonomo con un’idea algoritmica di teoria del gioco.
Questo approccio combinato non richiede la modellazione degli stati privati dai dati pubblici. Tuttavia, la sfida con questo approccio è quella di ampliare questo approccio di apprendimento per rinforzo senza modelli con R-NaD per rendere il gioco autonomo competitivo contro gli esperti umani in Stratego, un’impresa che deve ancora essere raggiunta.
Impariamo un equilibrio di Nash in Stratego attraverso il gioco autonomo e l’apprendimento per rinforzo senza modelli. L’idea di combinare RL senza modelli e auto-gioco è già stata provata, ma è stato empiricamente difficile stabilizzare tali algoritmi di apprendimento quando si passa a giochi complessi.
L’idea alla base dell’algoritmo R-NaD è che è possibile definire una regola di aggiornamento dell’apprendimento che fornisce un sistema dinamico che, a sua volta, rivela l’esistenza di una funzione di Lyapunov. Questa funzione diminuisce durante l’apprendimento, il che a sua volta garantisce la convergenza a un equilibrio di nash fisso.
Risultati
Per testare le capacità di DeepNash, viene valutato sia rispetto ai giocatori esperti umani che ai più recenti robot SOTA Stratego. Il primo test viene eseguito su Gravon, una nota piattaforma di gioco online per i giocatori di Stratego. Quest’ultimo viene eseguito contro noti bot Stratego come Celsius, Asmodeus, PeternLewis, ecc.
Valutazione contro Gravon: DeepNash è stato valutato sulla base di 50 partite classificate contro i migliori giocatori umani nel corso di due settimane nell’aprile 2022. DeepNash è riuscito a vincere 42 di queste partite, il che lo porta a un’efficienza dell’84%. Sulla base della classica classifica Stratego nel 2022, la performance di DeepNash corrisponde a un punteggio di 1799, il che rende DeepNash il terzo miglior giocatore tra tutti i giocatori di Gravon Stratego. Questo risultato conferma che DeepNash ha raggiunto un livello di esperto umano in Stratego e anche questo solo tramite il self-play, senza alcun aiuto dei dati umani esistenti.
Valutazione contro SOTA Stratego-bot: DeepNash si scontra con diversi robot algoritmici Stratego esistenti, tra cui Probe, Master of the Flag, Demon of Ignorance e Celsius 1.1, tra gli altri.
Nonostante l’allenamento solo con il gioco autonomo, DeepNash ottiene la vittoria contro tutti i robot con una stragrande maggioranza. Tuttavia, in alcune partite che DeepNash ha perso contro Celsius1.1, quest’ultimo ha adottato una strategia ad alto rischio per ottenere un vantaggio materiale significativo catturando pezzi con un pezzo di alto rango all’inizio del gioco.
DeepNash è progettato con l’unico obiettivo di apprendere una politica di equilibrio di Nash durante l’allenamento e apprendere il comportamento qualitativo di un top player. DeepNash è riuscito a generare un’ampia gamma di implementazioni che hanno reso difficile per i giocatori umani trovare schemi da sfruttare. DeepNash ha anche dimostrato la sua capacità di fare compromessi non banali tra informazioni e materiale, eseguire bluff e correre rischi quando necessario.