Questo algoritmo AI di Facebook può giocare sia a scacchi che a poker con la stessa facilità
In notizie recenti, il team di ricerca di Facebook ha introdotto un bot AI generale, ReBeL , in grado di riprodurre sia informazioni perfette, come gli scacchi, sia giochi di informazioni imperfette come il poker con la stessa facilità, utilizzando l’apprendimento per rinforzo. Come afferma l’azienda, è un grande passo verso la creazione di un algoritmo di intelligenza artificiale generale che potrebbe funzionare bene su una vasta gamma di giochi.
I ricercatori ritengono che questo algoritmo avrà applicazioni del mondo reale, inclusa la gestione delle negoziazioni, il rilevamento delle frodi e persino la sicurezza informatica.
L’algoritmo ReBeL
AlphaZero di DeepMind ha catturato rapidamente la fantasia della comunità di ricerca sull’IA quando è stato rilasciato nel 2017. Un programma basato sull’IA che potrebbe giocare a giochi come scacchi , shogi e Go non è inaudito, ma AlphaZero è diverso in quanto utilizza l’apprendimento di rinforzo con ricerca (RL + Ricerca) per “imparare da solo” imitando i giocatori di livello mondiale.
Ci sono stati anche modelli progettati per giocare ad altri giochi come il poker. Ad esempio, Facebook, nel 2019, ha introdotto il bot Pluribus che è riuscito a sconfiggere esperti umani nel no-limit Hold ‘em a sei giocatori, che è il formato di poker più giocato al mondo.
Tuttavia, non è stato progettato un algoritmo AI generalizzato in grado di sostenere sia gli scacchi che il poker.
Per gli umani, riconosciamo questi due giochi semplicemente diversi nel senso più ampio. Tuttavia, per una macchina, classifica giochi come gli scacchi come giochi informativi perfetti, in cui il giocatore è a conoscenza di tutti i possibili eventi e conosce o può vedere le mosse degli altri giocatori; giochi come il poker sono classificati come giochi con informazioni imperfette di cui i giocatori hanno bisogno per bilanciare tutti i possibili risultati quando prendono una decisione al volo.
Quindi, mentre AlphaZero si comporta bene per gli scacchi, si rompe quando viene utilizzato per giochi di informazioni imperfette. Per affrontare questo aspetto, Facebook ha ora introdotto un Recursive Belief-base Learning (ReBeL), che secondo il gigante dei social media è un “passo importante verso la creazione di algoritmi AI sempre più generali”.
ReBeL è un miglioramento rispetto all’apprendimento per rinforzo generale + algoritmo di ricerca (utilizzato anche da AlphaZero). È costruito su modelli precedenti come AlphaZero, ma ora include una capacità aggiuntiva per giocare a giochi come il poker, dove valuta le possibilità che il giocatore avversario abbia una carta particolare, ad esempio una coppia di assi.
ReBeL è risultato essere efficace nei giochi di informazione imperfetta a somma zero per due giocatori su larga scala come il poker. Le sue prestazioni sono state valutate su due giochi di informazioni imperfette: il Texas Hold’em senza limiti heads-up, una forma di poker, e Liar’s Dice, un gioco di dadi “bluff-and-ingannare” giocato con più pezzi.
Durante la sperimentazione, nel caso del Texas Hold ‘em senza limiti heads-up, ReBeL potrebbe battere un esperto umano con significatività statistica. È stato anche scoperto che funziona con Liar’s Dice, che è un altro tipo di gioco di informazioni imperfette , stabilendo così la capacità del modello come struttura generale. Facebook ha ora reso open source l’implementazione su Liar’s Dice per consentire alla più ampia comunità di ricerca sull’IA di basarsi su questi risultati.
Secondo Facebook, ReBeL è la prima IA che utilizza RL + Search che funziona bene anche con giochi con informazioni imperfette. Tuttavia, presenta anche alcune limitazioni.
In primo luogo, la quantità di abilità computazionale di ReBeL è molto alta, specialmente nel contesto di alcuni giochi come Recon Chess. Negli scacchi da ricognizione o ricognizione, il giocatore non è a conoscenza della posizione dei pezzi dell’avversario e deve dipendere da determinate “azioni di rilevamento” per determinare la scacchiera. Ha una profondità strategica ma una conoscenza comune molto scarsa.
In secondo luogo, poiché ReBeL dipende dalla conoscenza delle regole esatte del gioco, può essere utile per Go e poker dove le regole e le relative ricompense sono ben note in anticipo. Tuttavia, lo stesso non si può dire per le interazioni nel mondo reale. Quindi, per ora, si può dire che i meccanismi di ReBeL e il suo successo sono limitati solo ai giochi a somma zero per due giocatori, che sono pochi e rari nelle interazioni del mondo reale.
Nonostante i suoi difetti, questo algoritmo ha ottenuto prestazioni superiori nel Texas Hold’em heads-up no-limit utilizzando conoscenze relativamente meno esperte. Scrivendo delle sue capacità e delle sue aspettative future, Facebook ha detto nel blog: “… lo consideriamo un passo importante verso lo sviluppo di tecniche universali per le interazioni multiagente, e quindi come un passo verso complesse applicazioni del mondo reale come il rilevamento delle frodi e la sicurezza informatica”.