Perché i giochi potrebbero non essere il miglior punto di riferimento per l’IA  

Nel 2019, il laboratorio di ricerca sull’intelligenza artificiale OpenAI con sede a San Francisco ha organizzato un torneo per promuovere l’abilità di OpenAI Five, un sistema progettato per giocare al gioco multiplayer nell’arena di battaglia Dota 2. OpenAI Five ha sconfitto una squadra di giocatori professionisti due volte. E quando è stato reso pubblicamente disponibile, OpenAI Five è riuscito a vincere contro il 99,4% delle persone che ci hanno giocato online.

OpenAI ha investito molto in giochi per la ricerca, sviluppando librerie come CoinRun e Neural MMO , un simulatore che lancia l’IA nel mezzo di un mondo simile a un gioco di ruolo. Ma questo approccio sta cambiando. Secondo un portavoce, OpenAI non ha utilizzato i giochi come benchmark “più così tanto” poiché il laboratorio sposta la sua attenzione su altri domini, inclusa l’elaborazione del linguaggio naturale.

 
L’attenzione di OpenAI su giochi come Dota 2, platformer e nascondino riflette l’opinione divisa tra gli esperti sul valore dei giochi nella ricerca sull’IA. Mentre alcuni credono che i giochi possano portare a nuove intuizioni, generando sistemi di IA con applicazioni commerciali, altri pensano che l’IA creata per giocare sia incasellata dal design.

“Penso che i giochi abbiano la tendenza a entusiasmare le persone, perché possono relazionarsi, perché le persone hanno giocato a [giochi come Dota 2] e sanno che erano difficili per loro”, Richard Socher, fondatore di You.com e l’ex capo scienziato dell’IA di Salesforce, ha detto a VentureBeat. “Ma è un po’ come quando sei eccitato, il tuo computer può moltiplicarsi fino a numeri molto grandi. [Questi sistemi] in definitiva non sono così intelligenti … [Non hanno] davvero creato valore nel mondo al di fuori di quel gioco.

La maggior parte dell’IA applicata ai giochi rientra nella categoria dell’apprendimento per rinforzo, in cui a un sistema viene assegnata una serie di azioni che può applicare al suo ambiente. Il sistema, che di solito inizia a non sapere nulla dell’ambiente, riceve ricompense in base al modo in cui le sue azioni lo avvicinano a un obiettivo. Man mano che il sistema riceve gradualmente feedback dall’ambiente, apprende sequenze di azioni che possono massimizzare le sue ricompense.

Socher osserva che, a differenza del mondo reale, i giochi forniscono una quantità teoricamente infinita di dati per addestrare i sistemi di intelligenza artificiale. Ad esempio, per sviluppare OpenAI Five, OpenAI ha fatto giocare al sistema l’equivalente di 180 anni di giochi ogni giorno per settimane. AlphaStar di DeepMind, un sistema in grado di battere i migliori giocatori del gioco di strategia StarCraft II, ha imparato da centinaia di migliaia di esempi di partite rilasciati dall’editore del gioco, Activision Blizzard. E una versione di un sistema di gioco Atari progettato da Uber chiamato Go-Explore ha impiegato 58 ore di gioco continuo per ottenere il punteggio più alto in Montezuma’s Revenge.

“[I giochi] hanno fatto progredire il mondo della ricerca con alcune nuove [idee] interessanti, ma il problema è che molte volte le persone credono che le cose difficili per gli umani lo siano per i computer”, ha detto Socher. “Una volta che l’IA è riuscita a risolvere gli scacchi, non è diventata più intelligente delle persone: è semplicemente diventata brava a scacchi. Questo è l’errore che abbiamo visto ora… [questi tipi di] algoritmi non sono generalmente intelligenti, possono semplicemente giocare molto bene a determinati giochi”.

Una breve storia dei giochi nell’IA
I giochi sono stati concepiti come benchmark di intelligenza artificiale per decenni. Come scrive Luke Dormehl di Digital Trends, il matematico americano Claude Shannon sostenne nel 1949 che giochi come gli scacchi per computer rappresentavano una sfida degna per il software “intelligente”. I giochi distillano i problemi in azioni, stati e ricompense e tuttavia richiedono un ragionamento per eccellere, ha affermato Shannon, pur possedendo una struttura in linea con il modo in cui i computer risolvono i problemi.

 

Nel 1996, IBM ha dato il via a Deep Blue sugli scacchi, ed è diventato il primo programma a sconfiggere un campione del mondo in carica, Garry Kasparov , sotto il controllo del tempo regolare. Sfruttando 30 microprocessori top di gamma, Deep Blue ha valutato 200 milioni di posizioni della scheda ogni secondo e ha attinto a un banco di memoria di centinaia di migliaia di precedenti partite di scacchi di livello master.

Nel 2011, la Watson AI di IBM ha affrontato gli ex campioni di Jeopardy Ken Jennings e Brad Rutter in uno speciale televisivo in più parti del game show. Con l’accesso a 200 milioni di pagine di contenuti incluso il testo completo dell’edizione 2011 di Wikipedia, Watson ha battuto facilmente la coppia, vincendo $ 1 milione di premi.

Nel 2013, DeepMind ha dimostrato un sistema in grado di riprodurre Pong, Breakout, Space Invaders, Seaquest, Beamrider, Enduro e Q*bert a livelli “sovrumani”. Tre anni dopo, AlphaGo di DeepMind ha vinto una partita di tre partite di Go contro Lee Sedol, uno dei giocatori con il punteggio più alto al mondo. Nel 2017, una versione migliorata del sistema, AlphaZero , ha sconfitto campioni umani a scacchi, una variante giapponese degli scacchi chiamata shogi, e Go. E nel 2020, DeepMind ha presentato MuZero , che riprende le regole di giochi come gli scacchi mentre giocano.

I laboratori hanno sviluppato più recentemente un’IA in grado di giocare a giochi con informazioni imperfette, come il poker, con abilità elevate. In contrasto con i giochi con informazioni perfette come scacchi e shogi, i giochi con informazioni imperfette hanno informazioni nascoste ai giocatori durante il gioco (ad esempio, la mano di un altro giocatore nel poker). Due anni fa, Pluribus di Facebook e Carnegie Mellon è stato tra i primi a battere i professionisti nel Texas Hold’em. Player of Games di DeepMind mostra anche ottime prestazioni nel gioco di strategia Scotland Yard e perfetti giochi di informazione tra cui gli scacchi.

Una misura imperfetta
Alcuni ricercatori sostengono che sistemi come Player of Games, che possono ragionare sugli obiettivi e sulle motivazioni degli altri, potrebbero aprire la strada a un’IA che può funzionare con successo con gli altri. Attività come la pianificazione del percorso intorno alla congestione, le negoziazioni contrattuali e persino l’interazione con i clienti implicano tutti compromessi e considerazioni su come le preferenze delle persone coincidono e sono in conflitto, come nei giochi.

“In tutte le società umane, le persone si impegnano in un’ampia gamma di attività con una varietà di altre persone”, scrivono i ricercatori dietro un benchmark AI per Hanabi . “Con interazioni così complesse… che giocano un ruolo fondamentale nelle vite umane, è essenziale che gli agenti artificialmente intelligenti siano in grado di cooperare efficacemente con altri agenti, in particolare gli esseri umani”.

Al di là di Hanabi e giochi da tavolo come Diplomacy , Minecraft di Microsoft, che ha obiettivi semplici come acquisire cibo a sufficienza per non morire di fame, è stato proposto come campo di addestramento per questo tipo di IA collaborativa. I ricercatori di DeepMind e dell’Università della California, Berkeley, hanno recentemente lanciato un concorso chiamato BASALT in cui l’obiettivo di un sistema di intelligenza artificiale deve essere comunicato attraverso dimostrazioni, preferenze o qualche altra forma di feedback umano.

 

“I videogiochi … hanno fornito un sandbox estremamente prezioso per i ricercatori che cercano di insegnare agli agenti a completare compiti complessi”, ha detto a VentureBeat Luca Weihs, ricercatore presso l’Allen Institute for Artificial Intelligence. “Ciò è dovuto in gran parte all’ampia diversità visiva tra i giochi, alla varietà di strategie necessarie per il successo e all’elevata velocità di simulazione che consente la sperimentazione su larga scala”.

Ma nonostante la loro convenienza dal punto di vista della ricerca, Weihs ritiene che i giochi siano un punto di riferimento dell’IA imperfetto a causa della loro astrattezza e relativa semplicità. Osserva che anche i migliori sistemi di gioco, come AlphaStar, generalmente faticano a ragionare sugli stati di altri sistemi di intelligenza artificiale, non si adattano bene ai nuovi ambienti e non possono risolvere facilmente problemi che non hanno mai visto prima, in particolare problemi che devono essere risolti su lunghi orizzonti temporali.

Ad esempio, un modello di apprendimento per rinforzo che può giocare a StarCraft 2 a livello di esperti non sarà in grado di giocare a un gioco con meccaniche simili a nessun livello di competenza. Anche lievi modifiche al gioco originale degraderanno le prestazioni del modello. OpenAI Five è riuscito a padroneggiare solo 16 personaggi giocabili in Dota 2 – non gli oltre 100 personaggi del gioco – e i giocatori non campioni sono stati in grado di trovare strategie per battere in modo affidabile il sistema nel giro di pochi giorni dopo che è stato reso pubblico.

Mike Cook, ricercatore di intelligenza artificiale e designer di giochi presso la Queen Mary University di Londra, concorda sul fatto che i giochi “non sono così speciali” come punto di riferimento per l’IA. Ciò che conta davvero dei giochi, dice, è il ruolo che hanno nella società e nella cultura. Ma crede che i ricercatori stiano esaurendo sia la frutta a basso costo che le pietre di paragone culturali per il pubblico non di gioco.

“Chess and Go erano obiettivi ovvi [per i benchmark AI] a causa della loro importanza storica sia nell’informatica che nella più ampia cultura umana come un gioco ‘gente intelligente’, per favore”, ha detto Cook a VentureBeat via e-mail. “Da lì, dove vai? Bene, hai bisogno di giochi che (1) abbiano un benchmark chiaro che puoi dire di aver battuto, (2) siano compresi o almeno vagamente conosciuti da persone che non sono giocatori e (3) si sentano significativi da battere… Giocare a scacchi è giocare a scacchi; il computer chiaramente non ha un “vantaggio” lì perché il gioco è giocato nella mente. Ma se provassimo a ottenere un’intelligenza artificiale per giocare a Call of Duty [o Quake II Arena ], un gioco che soddisfa i primi due criteri, potrebbe non sembrare una vittoria significativa perché le persone si aspettano che i computer abbiano reazioni rapide”.

Innovazione attraverso il gioco
Altri non sono d’accordo. Nvidia, che ha un interesse acquisito per l’hardware di gioco , sostiene l’idea che i giochi rimangano un’area importante della ricerca sull’IA, in particolare per l’apprendimento per rinforzo. Bryan Catanzaro, vicepresidente della ricerca sul deep learning applicato presso Nvidia, descrive i giochi come “sandbox chiaramente definiti” con regole e obiettivi che mancano al mondo reale.

“Insegnare agli agenti di intelligenza artificiale a navigarli ci aiuta a lavorare per creare agenti generalmente utili che possono aiutarci a risolvere i problemi nel mondo reale”, ha detto Catanzaro a VentureBeat via e-mail. “Inoltre, è molto divertente lavorare con loro.”

Anche Microsoft crede nel potere del gioco come piattaforma per lo sviluppo dell’IA, puntando a sforzi come il Project Paidia in corso. Un’iniziativa congiunta tra Microsoft Research Cambridge e lo studio di giochi di proprietà di Microsoft Ninja Theory, Project Paida mira a guidare la ricerca sull’apprendimento per rinforzo consentendo ai sistemi di imparare a collaborare con i giocatori di videogiochi.

Il fornitore di motori di gioco Unity è impegnato in un lavoro simile. Il suo plug-in ML-Agents Toolkit consente all’IA di acquisire nuove abilità e comportamenti tramite l’apprendimento per rinforzo, dove l’unica cosa che sa in un dato ambiente virtuale è ciò che è corretto. In collaborazione con Google, Unity ha creato Obstacle Tower, un videogioco progettato per sfidare la capacità di un sistema di superare ostacoli inclusi enigmi, layout complicati e nemici pericolosi.

 

Di recente, Project Paida di Microsoft si è rivolto all’apprendimento per rinforzo “centrato sul progettista”, con l’obiettivo di sviluppare un sistema sintonizzabile (ad esempio un robot) che impari a comportarsi in modo realistico senza che uno sviluppatore debba codificare ogni comportamento naturale. Project Paya ha anche scoperto tecniche per aiutare i sistemi di intelligenza artificiale a collaborare tra loro nel gioco di combattimento multiplayer Bleeding Edge.

“Con progetti come questo, stiamo mostrando come l’intelligenza artificiale si sta spostando dalle applicazioni competitive all’utilizzo per consentire ai giocatori di ottenere di più”, ha affermato in un’intervista il ricercatore principale di Microsoft Sam Devlin.

In uno dei progetti più promettenti fino ad oggi, DeepMind ha creato un motore, XLand, in grado di generare ambienti in cui i ricercatori possono addestrare i sistemi di intelligenza artificiale su una serie di attività. Ogni nuova attività viene generata in base alla cronologia di addestramento di un sistema e in un modo per aiutare a distribuire le competenze del sistema tra le sfide, come “cattura la bandiera” e “nascondino”. Dopo oltre un mese di formazione, DeepMind afferma che i sistemi in XLand dimostrano comportamenti simili a quelli umani come il lavoro di squadra e la permanenza degli oggetti , la consapevolezza delle basi del proprio corpo e il passare del tempo; e la conoscenza della struttura di alto livello dei giochi che incontrano.

Andare oltre i giochi
I giochi hanno informato lo sviluppo dell’IA implementata nel mondo reale. Ad esempio, gli strumenti di apprendimento per rinforzo vengono utilizzati non solo nel controllo robotico , nel test e nella sicurezza del software , nelle macchine industriali , nella progettazione di chipset , nella progettazione di farmaci , nelle auto a guida autonoma e nella compressione video , ma nei sistemi che determinano quali video e annunci vengono mostrati agli utenti in linea . Allo stesso modo, gli algoritmi di ricerca, che consentono ai sistemi di intelligenza artificiale di orientarsi nei videogiochi, supportano la pianificazione automatica del percorso nei sistemi di navigazione.

Dimostrando ulteriormente la potenziale utilità dei giochi, Go-Explore è stato utilizzato per migliorare l’addestramento di un braccio robotico nel mondo reale. I ricercatori dell’Università della Finlandia orientale e dell’Università di Aalto affermano anche di aver ” trasferito ” con successo le abilità apprese da un’IA in un videogioco – Doom – a un robot del mondo reale.

Alcuni dei migliori scienziati di DeepMind hanno  pubblicato di recente un articolo  in cui ipotizzano che una singola ricompensa e l’apprendimento per rinforzo siano sufficienti per raggiungere alla fine  l’intelligenza artificiale generale (AGI) o sistemi di intelligenza artificiale in grado di svolgere qualsiasi compito. “[Sistemi come AlphaZero sono] un trampolino di lancio per noi fino all’IA generale”, ha detto a   il CEO di DeepMind Demis Hassabis in un’intervista del 2018. “Il motivo per cui mettiamo alla prova noi stessi e tutti questi giochi è… che [sono] un banco di prova molto conveniente per sviluppare i nostri algoritmi. … In definitiva, [stiamo sviluppando algoritmi che possono essere] tradotti [ndr] nel mondo reale per lavorare su problemi davvero impegnativi … e aiutare gli esperti in quelle aree. “

Mettendo da parte il fatto che non tutti gli esperti ritengono che l’AGI sia realizzabile, i ricercatori, pur riconoscendo il contributo dei giochi nel campo dell’IA, stanno guardando i giochi con un occhio sempre più scettico. In un’intervista con The Verge, Francois Chollet, un ingegnere del software di Google e una figura ben nota nella comunità dell’IA, afferma che la motivazione a perseguire i giochi di successo come benchmark di allenamento si riduce a giochi di pubbliche relazioni.

“Se il pubblico non fosse interessato a questi ‘traguardi’ appariscenti che sono così facili da travisare come passi verso l’IA generale sovrumana, i ricercatori farebbero qualcos’altro”, ha detto . “Non la vedo davvero come una ricerca scientifica perché non ci insegna nulla che non sapessimo già… Se la domanda era: ‘Possiamo suonare X a un livello sovrumano?’, la risposta è sicuramente: ‘Sì , a condizione che tu possa generare un campione sufficientemente denso di situazioni di formazione e inserirlo in un modello di apprendimento profondo sufficientemente espressivo.’ Lo sappiamo da tempo”.

Nel frattempo, esperti come Noam Brown, un ricercatore presso Meta (ex Facebook), non sono convinti che nemmeno gli ambienti di gioco all’avanguardia come XLand ottengano ciò che i loro creatori si prefiggono di ottenere. I sistemi di intelligenza artificiale addestrati in XL e devono imbattersi in un’area interessante per caso e quindi essere incoraggiati a rivisitare quell’area fino a quando non è più “interessante”, a differenza degli umani.

Parte del problema è il meccanismo utilizzato per premiare l’IA. I premi “sparsi” premiano un sistema per il raggiungimento di un determinato obiettivo, ma a rischio di portare a un vicolo cieco. Le ricompense “dense” aiutano un sistema lungo il percorso verso un’attività, ma possono portare a un sistema rigido che non si generalizza a nuovi scenari.

Una ricerca più recente di Caltech e UC Berkeley illustra il problema. Si scopre che, man mano che un modello di apprendimento per rinforzo addestrato per giocare al gioco Atari Riverraid aumenta, diventa più probabile che cerchi un “proxy” o una falsa ricompensa piuttosto che la vera ricompensa. Secondo i coautori, i progettisti di ricompense dovranno probabilmente prestare maggiore attenzione per specificare accuratamente le funzioni di ricompensa man mano che i modelli più grandi diventano più comuni.

 

“Solo perché un gioco è complesso non significa necessariamente che sia difficile per un’IA”, ha detto Brown a VentureBeat in un’intervista. “I videogiochi non sono necessariamente più difficili dei giochi da tavolo o di carte. Ad esempio, Counter-Strike di [Valve] è un popolare gioco 3D in tempo reale che coinvolge cooperazione, competizione, pianificazione a lungo termine e osservabilità parziale. Sulla carta, sembra un gioco davvero difficile da giocare per un’IA, ma i robot sono stati in grado di battere i giocatori umani in Counter-Strike dagli anni ’90. Questo perché puoi fare abbastanza bene in Counter-Strike se hai riflessi veloci e una mira precisa, che sono entrambe cose in cui le macchine eccellono. Il fatto che un gioco sia o meno un buon punto di riferimento dipende dal fatto che le tecniche necessarie per giocarci bene siano più difficili per le macchine che per gli esseri umani, come le capacità di comunicazione e l’adattamento rapido”.

IBM, nonostante tutto il suo lavoro nei giochi (incluso il più recente Project Debater), afferma che si sta allontanando dallo sviluppo dell’IA “incentrato sul benchmark” a favore di approcci alternativi. Ruchir Puri, scienziato capo di IBM Research, attribuisce la colpa al focus sui compiti “ristretti” e “sfumati” dei giochi e alla crescente difficoltà di comprensione e applicazione dei benchmark a questi sistemi “in evoluzione”.

“I giochi hanno contribuito a promuovere una significativa innovazione nell’IA, dagli scacchi al Go e oltre. Detto questo, la strategia di creare l’IA tenendo conto dei benchmark di gioco in questa fase della [creazione] dell’IA, in cui l’IA si sta laureando per avere un impatto sulle imprese essendo infusa nei processi aziendali e dei consumatori, è piuttosto ristretta”, ha detto Puri a VentureBeat in un colloquio. “Invece di concentrarci su un’IA che “supera” un benchmark specifico, dovremmo invece misurare un sistema sulla diversità e sulla gamma di compiti che può svolgere, insieme alla sua capacità di dimostrare un ragionamento e una comprensione più simili a quelli umani”.

Potenziali risposte
La soluzione di Cook sono i giochi che rappresentano una sfida più rilevante e generale per l’IA rispetto, ad esempio, al calcio o al Pong . Suggerisce la serie Jackbox Party Pack, che richiede un mix di creatività, bluff, intuizione e umorismo. Come sottolineato in un articolo di Time all’inizio di questo mese, la prospettiva di un’intelligenza artificiale che capisca ciò che gli umani trovano divertente – e che possa generare il proprio materiale davvero divertente – è un Santo Graal per un sottoinsieme di ricercatori di intelligenza artificiale, perché potrebbe dimostrare una teoria della mente .

“Questo è un problema davvero impegnativo [e] farebbe avanzare notevolmente il campo … ma non è un problema ampiamente affrontato [ed] è molto difficile”, ha detto Cook.

Brown crede anche che interessanti lezioni algoritmiche possano essere apprese dal gioco giusto, come le simulazioni o quelle che richiedono un uso complesso del linguaggio. A tal fine, Meta a gennaio ha rilasciato NetHack Learning Environment (NHLE) , uno strumento di ricerca basato sul gioco NetHack che incarica i giocatori con livelli di dungeon discendenti di recuperare un amuleto magico. I livelli in NetHack sono generati proceduralmente, il che significa che ogni gioco è diverso e il successo spesso dipende dalla consultazione di fonti come la NetHack Guidebook ufficiale , il  NetHack Wiki , i video online e le discussioni nei forum.

“Alcuni giochi sono ancora importanti benchmark dell’IA, ma dipende dal gioco”, ha detto Brown a VentureBeat. “Ora che le IA sono in grado di battere giocatori umani in giochi come Go e poker, nessuno sarebbe sorpreso se un sistema di IA battesse umani esperti in un gioco come il gin rummy. Ma ci sono alcuni giochi che sono ancora incredibilmente difficili per gli algoritmi di intelligenza artificiale e che richiederanno tecniche fondamentalmente nuove”.

Chollet propone un benchmark simile a un gioco chiamato ARC, che copre una serie di attività di ragionamento in cui ogni attività viene spiegata tramite una piccola sequenza di dimostrazioni. Un sistema di intelligenza artificiale deve imparare a svolgere il compito da queste poche dimostrazioni. Sebbene l’ARC sia risolvibile dagli esseri umani senza spiegazioni verbali o addestramento preliminare, è inavvicinabile dalla maggior parte delle tecniche di intelligenza artificiale che sono state provate finora.

NHLE e ARC – e benchmark simili – potrebbero aiutare a risolvere un altro problema con i giochi nell’IA: la loro inefficienza di calcolo. NHLE può addestrare agenti di apprendimento per rinforzo 15 volte più velocemente rispetto ai benchmark Atari vecchi di decenni perché esegue solo il rendering di simboli anziché pixel e utilizza una fisica semplicistica. Ciò potrebbe portare a sostanziali risparmi sui costi, considerando che DeepMind avrebbe speso 35 milioni di dollari per addestrare l’ultima versione di AlphaGo.

“La mia impressione è che se [costringessi un sistema di intelligenza artificiale] a usare il linguaggio in modo complesso, [questo] non potrebbe semplicemente provare ogni combinazione illegale”, ha detto Socher. “I giochi che includono l’autoinganno o il linguaggio potrebbero essere interessanti per vedere se [il sistema di intelligenza artificiale] potrebbe bluffare correttamente, ma anche attraverso il linguaggio”.

Di ihal