DeepMind crea giochi da quando la società Alphabet era solo una start-up. Tuttavia, l’attenzione continua dell’azienda sullo sviluppo di giocatori ha prodotto scoperte storiche in meno di un decennio, a partire da Atari, che è diventato rivoluzionario nell’apprendimento profondo del rinforzo fuori policy fino all’originale AlphaGo che ha compresso diversi decenni di gioco in pochi anni e è stato seguito da continui sviluppi. In effetti, i giochi di DeepMind sono stati progettati da uno dei fondatori, Demis Hassabis, prima ancora che la società fosse creata. Questo articolo ti guiderà attraverso l’affascinante storia della svolta di DeepMind nei giochi. 

Un riassunto visivo dei giochi di DeepMind nel corso degli anni
 

Atari Games: giocare in ambiente arcade

Nel 2013, il primo algoritmo di DeepMind è stato testato su giochi Atari 2600. I ricercatori hanno selezionato l’Arcade Learning Environment per testare la competenza dell’algoritmo in vari giochi in un ambiente tanto impegnativo quanto la scelta dei giocatori umani. L’algoritmo iniziale ha imparato a giocare a sette partite ottenendo prestazioni umane medie su tre di esse. Nel 2015, DeepMind ha perfezionato l’algoritmo per testarlo sulla suite di 49 giochi di Atari e la macchina ha battuto le prestazioni umane su 23 di essi.

Una sfida persistente era ancora quella di riuscire nei quattro giochi principali di Atari, Montezuma’s Revenge, Pitfall, Solaris e Skiing, che si sono rivelati particolarmente difficili per le IA, dato che dovrà provare diverse strategie e le migliori mosse per ottenere il risultato. Solo nell’anno precedente l’algoritmo è riuscito a raggiungere questo obiettivo.

AlphaGo: la prima IA a sconfiggere un giocatore professionista di Go umano

Nel 2015, DeepMind ha rilasciato AlphaGo , che la società afferma essere “il primo programma per computer a sconfiggere un giocatore di Go umano professionista, il primo a sconfiggere un campione del mondo di Go, ed è probabilmente il giocatore di Go più forte della storia”. 

Il gioco più antico, il gioco da tavolo cinese Go, è considerato più complesso degli scacchi a causa delle possibili configurazioni 10 per 170 per il successo nel gioco. AlphaGo è costruito su un programma per computer che combina un albero di ricerca avanzato con una rete neurale profonda. Per vincere, la rete neurale inserisce una descrizione del gioco da tavolo e la elabora attraverso i milioni di connessioni simili a neuroni nei suoi vari livelli di rete. DeepMind ha sconvolto la sfera di gioco dei giocatori di computer “dilettanti” con AlphaGo che è stata la prima IA a sconfiggere un giocatore professionista di Go, il signor Fan Hui, tre volte campione europeo in carica con un punteggio di 5-0. Da allora ha battuto il più grande giocatore del mondo del decennio precedente, il signor Lee Sedol, con una vittoria per 4-1 con 200 milioni di spettatori in tutto il mondo seduti ai margini dei loro posti.

AlphaGo Zero: lettore da computer Go autodidatta 

Nel 2017, DeepMind ha rilasciato una versione aggiornata di AlphaGo, AlphaGo Zero . Mentre AlphaGo è stato addestrato giocando migliaia di partite con livelli di giocatori, AlphaGo Zero ha imparato giocando contro se stesso. In pochi giorni, il programma per computer ha raccolto anni di conoscenza umana e ha imparato a giocare a Go da AlphaGo. La versione più recente ha superato le prestazioni di tutte le versioni precedenti e ha appreso nuove strategie e mosse non convenzionali. AlphaGo Zero ha battuto altri campioni del mondo Go come Lee Sedol e Ke Jie.


AlphaZero: giocatore di Scacchi, Go e Shogi autodidatta

Alla fine del 2017, portando AlphaGo Zero a un livello macro, DeepMind ha introdotto Alpha Zero, un’intelligenza artificiale che può insegnare a padroneggiare giochi di scacchi, Shogi e Go, da zero. Il sistema ha anche battuto in tutti i casi i programmi per computer dei campioni del mondo esistenti. Ciò è dovuto alla sua profonda tecnologia di rete neurale che va oltre le caratteristiche artigianali e immette solo le regole di base del gioco. Giocando più e più volte con se stesso, AlphaZero ha sviluppato strategie uniche e creative per vincere tutti e tre i giochi.


AlphaStar: giocatore di StarCraft II

Nel 2019, DeepMind ha introdotto AlphaStar , un programma di intelligenza artificiale in grado di riprodurre il gioco di strategia in tempo reale StarCraft II. È la prima IA a raggiungere la massima serie del gioco, sfidando i due principali giocatori al mondo e classificandosi sopra il 99,8% dei giocatori attivi su Battle.net. Il programma è basato su reti neurali, apprendimento per rinforzo, auto-gioco, apprendimento multi-agente e apprendimento per imitazione per consentire all’IA di apprendere direttamente dai dati del gioco. AlphaStar ha combattuto con i tre agenti del gioco, Protoss, Terran e Zerg, attraverso un’unica rete neurale e ha raggiunto il livello di gran maestro per tutti e tre. La conoscenza di AlphaStar era equivalente a 200 anni di tempo di gioco durante la fase di introduzione.

MuZero: lettore AlphaGo+Atari

Nel 2019 è stata introdotta l’ ultima aggiunta nella programmazione AlphaGo, MuZero , portando la tecnologia un ulteriore passo avanti. L’IA abbina AlphaZero su Go, Chess e Shogi mentre padroneggia una serie di giochi Atari, senza alcun input delle regole del gioco. 

Invece, il programma apprende attraverso un modello dell’ambiente e applica le informazioni alla ricerca dell’albero lookahead di AlphaZero. Di conseguenza, MuZero può pianificare strategie vincenti anche in domini sconosciuti, rendendolo un’altra delle invenzioni di DeepMind per aprire la strada agli algoritmi di apprendimento per rinforzo verso l’AGI. 

Agente 57: giocatore di 57 giochi Atari

Nel 2020, DeepMind ha rilasciato una versione aggiornata dei primi giochi Atari2600 che può finalmente battere i quattro giochi più impegnativi della suite. Secondo il loro articolo , Agent57 è il primo agente di apprendimento per rinforzo profondo a superare gli umani su tutti i 57 giochi Atari 2600 nel set di dati Arcade Learning Environment. 

Agent57 è una fusione di tutti i miglioramenti nella rete Deep-Q di DeepMind dai giochi Atari nel 2012. Consiste anche in una forma di memoria che gli consente di basare le decisioni sull’apprendimento precedente dai giochi e un sistema di ricompensa per incoraggiare l’IA a esplorare più strategie.

Player of Games: giocatore perfetto e imperfetto

Nel 2021, l’aggiunta più recente di DeepMind è Player of Games (PoG), che si comporta bene sia nei giochi di informazione perfetti che in quelli imperfetti. La gamma di giochi dell’IA si estende oltre a Chess and Go to Poker e Scotland Yard. PoG funziona su un singolo algoritmo con una conoscenza specifica del dominio minima. Questo segna un miglioramento significativo negli step-up cumulativi di DeepMind nei giochi che le loro IA possono giocare. Ad esempio, AlphaZero potrebbe giocare solo a giochi perfetti, ma PoG può comprendere giochi informativi imperfetti come il poker che si basano sul ragionamento della teoria del gioco per nascondere correttamente le informazioni private. 

Il potenziale di ricerca di PoG è adatto a tipi di gioco fondamentalmente diversi, con la garanzia di DeepMind che troverà un equilibrio di Nash approssimativo risolvendo i sottogiochi per rimanere coerenti durante il gioco online. PoG utilizza la minimizzazione controfattuale del rimpianto dell’albero in crescita (GT-CFR) per costruire sottogiochi in modo non uniforme ed espandere l’albero verso gli stati futuri più rilevanti mentre raffina in modo iterativo valori e politiche. Utilizza anche l’auto-gioco che addestra le reti di valori e politiche utilizzando sia i risultati del gioco che le sottoricerche ricorsive applicate a situazioni emerse nelle ricerche precedenti. 

È importante notare che, nonostante tutto il successo di DeepMind, questi modelli di intelligenza artificiale non sono realisticamente versatili. Tendono ad essere bravi in ​​una cosa e solo una cosa. La sfida più grande per l’AGI è addestrare l’IA a più di un compito e, sebbene modelli come Agent57 possano apprendere 57 compiti, possono imparare e giocare solo un modello alla volta. Nonostante abbia lo stesso algoritmo, il programma dovrà riqualificare ogni gioco. Tuttavia, i giochi per giocatori di DeepMind segnano alcune delle prime volte in cui un algoritmo ha raggiunto i massimi livelli nei giochi, creato strategie uniche o sconfitto i migliori giocatori. 

Di ihal