L’IA del poker ‘superumana’ di Facebook e CMU batte i professionisti umani
“Può bluffare meglio di qualsiasi umano.”
L’intelligenza artificiale ha definitivamente sconfitto gli umani in un altro dei nostri giochi preferiti. Un programma, ideato dai ricercatori del laboratorio di intelligenza artificiale di Facebook e della Carnegie Mellon University, ha battuto alcuni dei migliori giocatori di poker del mondo in una serie di giochi di poker Texas Hold’em senza limiti di sei giocatori.
Oltre 12 giorni e 10.000 mani, il sistema di intelligenza artificiale denominato Pluribus ha affrontato 12 professionisti in due diverse impostazioni. In uno, l’intelligenza artificiale ha giocato al fianco di cinque giocatori umani; nell’altro, cinque versioni dell’IA giocate con un giocatore umano (i programmi per computer non erano in grado di collaborare in questo scenario). Pluribus ha vinto in media $ 5 per mano con vincite orarie di circa $ 1.000 – un “margine decisivo di vittoria”, secondo i ricercatori.
“È sicuro che siamo a un livello sovrumano e che non cambierà”, ha detto a The Verge Noam Brown, ricercatore presso Facebook AI Research e co-creatore di Pluribus .
“SIAMO A UN LIVELLO SOVRUMANO E QUESTO NON CAMBIERÀ”.
“Pluribus è un avversario molto difficile con cui giocare. È davvero difficile fissarlo con qualsiasi tipo di mano “, ha detto in una nota stampa Chris Ferguson, un sei volte campione delle World Series of Poker e uno dei 12 professionisti redatti contro l’IA.
In un articolo pubblicato su Science , gli scienziati di Pluribus affermano che la vittoria è una pietra miliare significativa nella ricerca di intelligenza artificiale. Sebbene l’apprendimento automatico abbia già raggiunto livelli sovrumani in giochi da tavolo come scacchi e Go , e giochi per computer come Starcraft II e Dota , il Texas Hold ‘em a sei giocatori senza limiti rappresenta, con alcune misure, un più alto indice di difficoltà.
Non solo è l’informazione necessaria per vincere nascosta ai giocatori (rendendola nota come “gioco di informazione imperfetto”), coinvolge anche più giocatori e complessi risultati di vittoria. Il gioco di Go ha notoriamente più combinazioni di tavole possibili rispetto agli atomi nell’universo osservabile, il che rende un’enorme sfida per l’intelligenza artificiale tracciare le mosse da compiere. Ma tutte le informazioni sono disponibili per vedere, e il gioco ha solo due possibili risultati per i giocatori: vincere o perdere. Ciò rende più facile, in alcuni sensi, addestrare un’IA.
Una cronologia del regime di allenamento di Pluribus. “Limping” è una strategia usata da alcuni giocatori umani che l’IA alla fine scartò. Credito: Facebook
Nel 2015, un sistema di machine learning batteva i professionisti umani a Texas Hold ‘em a due giocatori , ma aumentando il numero di avversari a cinque aumentava la complessità in modo significativo. Per creare un programma in grado di affrontare questa sfida, Brown e il suo collega Tuomas Sandholm, un professore della CMU, hanno implementato alcune strategie cruciali.
PLURIBUS È STATO ADDESTRATO IN SOLI OTTO GIORNI PER UN COSTO STIMATO DI SOLI $ 150
Innanzitutto, hanno insegnato a Pluribus a giocare a poker facendolo giocare contro copie di se stesso – un processo noto come auto-gioco. Questa è una tecnica comune per l’allenamento dell’IA, con il sistema in grado di apprendere il gioco attraverso tentativi ed errori; giocando centinaia di migliaia di mani contro se stesso. Anche questo processo di formazione è stato straordinariamente efficiente: Pluribus è stato creato in soli otto giorni utilizzando un server 64 core dotato di meno di 512 GB di RAM. La formazione di questo programma sui server cloud costerebbe solo $ 150, rendendolo un affare rispetto al cartellino del prezzo da centomila dollari per altri sistemi allo stato dell’arte.
Quindi, per affrontare la complessità extra di sei giocatori, Brown e Sandholm hanno trovato un modo efficace per l’IA di guardare avanti nel gioco e decidere quale mossa fare, un meccanismo noto come funzione di ricerca. Piuttosto che cercare di prevedere come i suoi avversari avrebbero giocato fino alla fine del gioco (un calcolo che sarebbe diventato incredibilmente complesso in pochi passaggi), Pluribus è stato progettato per guardare solo due o tre mosse avanti. Questo approccio troncato è stato il “vero passo avanti”, afferma Brown.
Potresti pensare che Pluribus stia sacrificando la strategia a lungo termine per ottenere guadagni a breve termine, ma nel poker, l’incisività a breve termine è davvero tutto ciò di cui hai bisogno.
“PUÒ BLUFFARE MEGLIO DI QUALSIASI UMANO.”
Ad esempio, Pluribus è stato straordinariamente bravo a bluffare i suoi avversari, con i professionisti che hanno giocato contro di esso lodando la sua “consistenza implacabile” e il modo in cui ha spremuto i profitti da mani relativamente magre. Era prevedibilmente imprevedibile: una qualità fantastica in un giocatore di poker.
Brown dice che è naturale. Spesso pensiamo al bluff come un tratto unicamente umano; qualcosa che si basa sulla nostra capacità di mentire e ingannare. Ma è un’arte che può ancora essere ridotta a strategie matematicamente ottimali, dice. “L’intelligenza artificiale non vede il bluff come ingannevole. Vede solo la decisione che farà più soldi in quella particolare situazione “, dice. “Ciò che mostriamo è che un’IA può bluffare e può bluffare meglio di qualsiasi altro umano.”
Cosa significa, quindi, che un’IA abbia definitivamente sconfitto gli umani come il gioco di poker più popolare del mondo? Bene, come abbiamo visto con le passate vittorie AI, gli umani possono sicuramente imparare dai computer. Alcune strategie di cui i giocatori sono generalmente sospettosi (come ” donk betting “) sono state abbracciate dall’IA, suggerendo che potrebbero essere più utili di quanto si pensasse in precedenza. “Ogni volta che suono il robot, sento di raccogliere qualcosa di nuovo da incorporare nel mio gioco”, ha detto il pro del poker Jimmy Chou.
C’è anche la speranza che le tecniche utilizzate per creare Pluribus saranno trasferibili ad altre situazioni. Molti scenari nel mondo reale assomigliano al poker Texas Hold ‘em nel senso più ampio – nel senso che coinvolgono più giocatori, informazioni nascoste e numerosi risultati vincenti.
Brown e Sandholm sperano che i metodi che hanno dimostrato possano quindi essere applicati in settori come la sicurezza informatica, la prevenzione delle frodi e le negoziazioni finanziarie. “Persino qualcosa come aiutare a guidare il traffico con auto che guidano da soli”, afferma Brown.
Quindi possiamo considerare il poker un gioco “battuto”?
Brown non risponde direttamente alla domanda, ma dice che vale la pena notare che Pluribus è un programma statico. Dopo il periodo iniziale di allenamento di otto giorni, l’IA non è mai stata aggiornata o migliorata in modo da poter meglio abbinare le strategie dei suoi avversari. E durante i 12 giorni trascorsi con i professionisti, non sono mai stati in grado di trovare una debolezza costante nel suo gioco. Non c’era niente da sfruttare. Dal momento in cui ha iniziato a scommettere, Pluribus era al top.