DeepMind scommette su un sistema di intelligenza artificiale che può giocare a poker, scacchi, Go e altro DeepMind, il laboratorio di intelligenza artificiale supportato dalla società madre di Google Alphabet, ha investito a lungo in sistemi di intelligenza artificiale per il gioco. La filosofia del laboratorio è che i giochi, pur mancando di un’ovvia applicazione commerciale, sono sfide unicamente rilevanti per le capacità cognitive e di ragionamento. Questo li rende utili benchmark del progresso dell’IA. Negli ultimi decenni, i giochi hanno dato origine al tipo di intelligenza artificiale autoapprendente che alimenta la visione artificiale, le auto a guida autonoma e l’elaborazione del linguaggio naturale.
Continuando il suo lavoro, DeepMind ha creato un sistema chiamato Player of Games, che la società ha rivelato per la prima volta in un documento di ricerca pubblicato sul server di prestampa Arxiv.org questa settimana. A differenza degli altri sistemi di gioco sviluppati in precedenza da DeepMind, come AlphaZero, vincitore di scacchi e AlphaStar, vincitore di StarCraft II, Player of Games può comportarsi bene sia con giochi di informazione perfetti (ad esempio, il gioco da tavolo cinese Go e scacchi) che con giochi imperfetti. giochi di informazione (es. poker).
Compiti come la pianificazione del percorso intorno alla congestione, le negoziazioni contrattuali e persino l’interazione con i clienti implicano tutti il compromesso e la considerazione di come le preferenze delle persone coincidono e entrano in conflitto, come nei giochi. Anche quando i sistemi di intelligenza artificiale sono interessati a se stessi, potrebbero avere da guadagnare coordinando, cooperando e interagendo tra gruppi di persone o organizzazioni. Sistemi come Player of Games, quindi, che possono ragionare sugli obiettivi e le motivazioni degli altri, potrebbero aprire la strada all’intelligenza artificiale che può funzionare con successo con gli altri, inclusa la gestione delle domande che sorgono sul mantenimento della fiducia.
Imperfetto contro perfetto
I giochi con informazioni imperfette hanno informazioni nascoste ai giocatori durante il gioco. Al contrario, i giochi di informazione perfetta mostrano tutte le informazioni all’inizio.
I giochi di informazioni perfette richiedono una discreta quantità di previdenza e pianificazione per giocare bene. I giocatori devono elaborare ciò che vedono sul tabellone e determinare cosa è probabile che facciano i loro avversari mentre lavorano verso l’obiettivo finale della vittoria. D’altra parte, i giochi con informazioni imperfette richiedono che i giocatori tengano conto delle informazioni nascoste e capiscano come dovrebbero agire dopo per vincere, incluso potenzialmente bluffare o fare squadra contro un avversario.
Sistemi come AlphaZero eccellono in giochi di informazioni perfette come gli scacchi, mentre algoritmi come DeepStack e Libratus si comportano molto bene in giochi di informazioni imperfette come il poker. Ma DeepMind afferma che Player of Games è il primo “algoritmo di ricerca generale e sonora” a ottenere prestazioni elevate sia nei giochi di informazione perfetti che in quelli imperfetti.
“[Player of Games] impara a giocare [ai giochi] da zero, semplicemente giocando ripetutamente in modalità self-play”, ha detto a VentureBeat via e-mail il ricercatore senior di DeepMind Martin Schmid, uno dei co-creatori di Player of Games. “Questo è un passo verso la generalità: Player of Games è in grado di giocare sia a giochi di informazione perfetti che a quelli imperfetti, rinunciando a un po’ di forza nelle prestazioni. AlphaZero è più forte di Player of Games nei giochi di informazione perfetta, ma [non è] progettato per giochi di informazione imperfetta.
Sebbene Player of Games sia estremamente generalizzabile, non può giocare a qualsiasi gioco. Schmid afferma che il sistema deve pensare a tutte le possibili prospettive di ciascun giocatore data una situazione di gioco. Mentre c’è solo una prospettiva nei giochi a informazione perfetta, ci possono essere molte di queste prospettive nei giochi a informazione imperfetta, per esempio, circa 2.000 per il poker. Inoltre, a differenza di MuZero , il successore di AlphaZero di DeepMind, Player of Games ha bisogno anche della conoscenza delle regole del gioco a cui sta giocando. MuZero può imparare al volo le regole dei giochi di informazione perfetta.
Nella sua ricerca, DeepMind ha valutato Player of Games – addestrato utilizzando i chipset acceleratori TPUv4 di Google – su scacchi, Go, Texas Hold’Em e il gioco da tavolo di strategia Scotland Yard. Per Go, ha organizzato un torneo di 200 partite tra AlphaZero e Player of Games, mentre per gli scacchi, DeepMind ha messo Player of Games contro i sistemi più performanti tra cui GnuGo, Pachi e Stockfish, nonché AlphaZero. La partita di Texas Hold’Em di Player of Games è stata giocata con lo Slumbot apertamente disponibile e l’algoritmo ha giocato a Scotland Yard contro un bot sviluppato da Joseph Antonius Maria Nijssen che i coautori di DeepMind hanno soprannominato “PimBot”.
Negli scacchi e nel Go, Player of Games si è dimostrato più forte di Stockfish e Pachi in alcune, ma non tutte, configurazioni e ha vinto lo 0,5% delle sue partite contro il più forte agente AlphaZero. Nonostante le forti perdite contro AlphaZero, DeepMind crede che Player of Games si stesse comportando al livello di “un grande dilettante umano” e forse anche a livello professionale.
Player of Games era un giocatore di poker e Scotland Yard migliore. Contro Slumbot, l’algoritmo ha vinto in media di 7 milli big blind per mano (mbb/hand), dove mbb/hand è il numero medio di big blind vinti per 1.000 mani. (Un big blind è uguale alla puntata minima.) Nel frattempo, a Scotland Yard, DeepMind riporta che Player of Games ha vinto “significativamente” contro PimBot, anche quando a PimBot sono state date più opportunità di cercare le mosse vincenti.
Lavoro futuro
Schmid crede che Player of Games sia un grande passo verso sistemi di gioco veramente generali, ma lontano dall’ultimo. La tendenza generale negli esperimenti era che l’algoritmo funzionava meglio con più risorse computazionali (Player of Games si è allenato su un set di dati di 17 milioni di “passi” o azioni, solo per Scotland Yard) e Schmid si aspetta che questo approccio si ridimensionerà nel prevedibile futuro.
“[O] nessuno si aspetterebbe che le applicazioni che hanno beneficiato di AlphaZero possano anche beneficiare di Player of Games”, ha affermato Schmid. “Rendere questi algoritmi ancora più generali è una ricerca entusiasmante”.
Ovviamente, gli approcci che favoriscono enormi quantità di elaborazione mettono in una posizione di svantaggio le organizzazioni con meno risorse, come le startup e le istituzioni accademiche. Ciò è diventato particolarmente vero nel dominio linguistico, dove modelli massicci come il GPT-3 di OpenAI hanno raggiunto prestazioni leader ma con requisiti di risorse, spesso dell’ordine di milioni di dollari, che superano di gran lunga i budget della maggior parte dei gruppi di ricerca.
I costi a volte superano ciò che è considerato accettabile anche in un’azienda dalle tasche profonde come DeepMind. Per AlphaStar, i ricercatori dell’azienda non hanno volutamente provato diversi modi per progettare un componente chiave perché il costo della formazione sarebbe stato troppo alto nella mente dei dirigenti. DeepMind ha registrato il suo primo profitto solo l’anno scorso, quando ha raccolto 826 milioni di sterline (1,13 miliardi di dollari) di entrate. L’anno prima, DeepMind ha registrato perdite di $ 572 milioni e ha contratto un debito di miliardi di dollari.
Si stima che l’addestramento di AlphaZero sia costato decine di milioni di dollari. DeepMind non ha rivelato il budget di ricerca per Player of Games, ma è improbabile che sia basso considerando che il numero di fasi di allenamento per ogni gioco variava da centinaia di migliaia a milioni.
Poiché la ricerca alla fine passa dai giochi ad altri domini più commerciali, come le raccomandazioni sulle app , l’ ottimizzazione del raffreddamento dei data center , le previsioni meteorologiche , la modellazione dei materiali , la matematica , l’ assistenza sanitaria e il calcolo dell’energia atomica , è probabile che gli effetti dell’ineguaglianza diventino più marcati. “Una domanda interessante è se questo livello di gioco è raggiungibile con meno risorse computazionali”, Schmid e i suoi colleghi coautori meditano, ma lasciano senza risposta, nel documento.