Facebook propone NetHack come una grande sfida nella ricerca sull’intelligenza artificiale
 

 Facebook ha proposto oggi NetHack come una grande sfida per la ricerca sull’IA, per la quale l’azienda sta lanciando un concorso alla conferenza AI NeurIPS 2021 a Sydney, in Australia. È affermazione di Facebook che NetHack, un videogioco degli anni ’80 con immagini semplici che è considerato tra i più difficili al mondo, può consentire agli scienziati dei dati di confrontare i metodi di intelligenza artificiale all’avanguardia in un ambiente complesso senza la necessità di eseguire esperimenti su un computer potente.

I giochi sono serviti come punti di riferimento per l’intelligenza artificiale per decenni, ma le cose hanno davvero preso il sopravvento nel 2013, l’anno in cui DeepMind di Google ha dimostrato un sistema in grado di riprodurre Pong, Breakout, Space Invaders, Seaquest, Beamrider, Enduro e Q*bert a livelli sovrumani . I progressi non stanno semplicemente migliorando il design del gioco, secondo esperti come il cofondatore di DeepMind Demis Hassabis. Piuttosto, stanno informando lo sviluppo di sistemi che potrebbero un giorno diagnosticare malattie, prevedere strutture proteiche complicate e  scansioni TC segmentate .

 
In particolare, l’ apprendimento per rinforzo , un tipo di intelligenza artificiale in grado di apprendere strategie per orchestrare sistemi di grandi dimensioni come impianti di produzione, sistemi di controllo del traffico, portafogli finanziari e robot, sta passando dai laboratori di ricerca ad applicazioni reali di grande impatto. Ad esempio, le aziende automobilistiche a guida autonoma come Wayve  e  Waymo utilizzano l’apprendimento per rinforzo per sviluppare i sistemi di controllo per le loro auto. E tramite Bonsai di Microsoft , Siemens sta impiegando l’apprendimento per rinforzo per calibrare le sue macchine CNC.

“I recenti progressi nell’apprendimento per rinforzo sono stati alimentati da ambienti di simulazione come giochi come StarCraft II, Dota 2 o Minecraft. Tuttavia, questo progresso ha comportato costi computazionali sostanziali, che spesso richiedevano l’esecuzione di migliaia di GPU in parallelo per un singolo esperimento, senza però portare a … metodi che possono essere trasferiti a più problemi del mondo reale al di fuori di questi giochi”, Facebook AI i ricercatori Edward Grefenstette, Tim Rocktäschel ed Eric Hambro hanno scritto in un post sul blog. “Abbiamo bisogno di ambienti complessi, che evidenzino le carenze di RL, consentendo al contempo simulazioni estremamente veloci a bassi costi di calcolo”.

NetHack
La proposta di Facebook segue il rilascio del NetHack Learning Environment (NHLE) dell’azienda , uno strumento di ricerca basato sul NetHack originale. (La NetHack Challenge è a sua volta basata sul NHLE.) NetHack, che è stato rilasciato per la prima volta nel 1987, incarica i giocatori di scendere più di 50 livelli di dungeon per recuperare un amuleto magico, durante il quale devono usare bacchette, armi, armature, pozioni, libri di incantesimi e altri oggetti e combattere i mostri. I livelli in NetHack sono generati proceduralmente e ogni gioco è diverso, il che, secondo i ricercatori di Facebook, mette alla prova i limiti di generalizzazione dell’IA leader.

“Vincere una partita a NetHack richiede una pianificazione a lungo termine in un ambiente incredibilmente spietato. Una volta che il personaggio di un giocatore muore… il gioco ricomincia da zero in un dungeon completamente nuovo”, hanno continuato Grefenstette, Rocktäschel e Hambro. “Completare con successo il gioco come un giocatore esperto richiede in media da 25 a 50 volte più passaggi di un normale gioco di StarCraft II, e le interazioni dei giocatori con gli oggetti e l’ambiente sono estremamente complesse, quindi il successo spesso dipende dal ricorso all’immaginazione per risolvere i problemi in modi creativi o sorprendenti, nonché la consultazione di fonti di conoscenza esterne [come] la guida ufficiale di NetHack , il  Wiki di NetHack e i video online e le discussioni sui forum]”.

 

L’osservazione parziale rende essenziale l’esplorazione in NetHack e la generazione procedurale e la “morte permanente” rendono significativo il costo del fallimento. E l’intelligenza artificiale non può resettarsi o interferire con l’ambiente, rendendo impossibili i metodi alla base di sistemi come AlphaZero di DeepMind per StarCraft II o Go-Explore di Uber per Montezuma’s Revenge.

“[Le sfide in NetHack] vanno da labirinti casuali a sfide più strutturate, come grandi stanze piene di mostri e trappole, città e fortezze e pericoli come acque infestate da kraken”, hanno detto Grefenstette, Rocktäschel e Hambro. “Nuovi modi di affrontare le osservazioni in continua evoluzione in un mondo di gioco stocastico e ricco richiedono lo sviluppo di tecniche che abbiano una migliore possibilità di ridimensionare le impostazioni del mondo reale con alti gradi di variabilità”.

Leggero
NetHack ha un altro vantaggio nella sua architettura leggera. Un mondo a turni con grafica ASCII e un motore di gioco scritto principalmente in C ne catturano la complessità. NetHack rinuncia a tutto tranne la fisica più semplice durante il rendering di simboli anziché pixel, cosa importante, consentendo all’intelligenza artificiale di apprendere rapidamente senza sprecare risorse computazionali nella simulazione della dinamica o nel rendering delle osservazioni.

In effetti, l’addestramento di modelli sofisticati di machine learning nel cloud rimane proibitivo. Secondo un  recente rapporto Synced , Grover dell’Università di Washington, che è studiato sia per la generazione che per il rilevamento di notizie false, costa $ 25.000 per l’addestramento nel corso di due settimane. OpenAI ha accumulato $ 256 all’ora per addestrare il suo  modello linguistico GPT-2 e Google ha speso circa $ 6.912 per la formazione di  BERT , un modello di trasformatore bidirezionale che ha ridefinito lo stato dell’arte per 11 attività di elaborazione del linguaggio naturale.

Al contrario, una singola scheda grafica di fascia alta è sufficiente per addestrare gli agenti NetHack basati sull’intelligenza artificiale centinaia di milioni di passaggi al giorno utilizzando il framework TorchBeast, che supporta un ulteriore ridimensionamento aggiungendo più schede grafiche o macchine. Gli agenti possono sperimentare miliardi di passaggi nell’ambiente in un lasso di tempo ragionevole, pur sfidando i limiti di ciò che le tecniche attuali possono raggiungere.

 

“[L’NHLE] può addestrare agenti di apprendimento per rinforzo …15 volte più velocemente persino dei benchmark Atari vecchi di dieci anni. Inoltre, NetHack può essere utilizzato per testare i limiti di metodi di apprendimento per rinforzo profondo ancora più recenti e allo stesso tempo correndo da 50 a 100 volte più velocemente rispetto a sfide di difficoltà comparabile, fornendo un grado di complessità più elevato.

Sfida
L’NHLE è costituito da tre componenti: un’interfaccia Python per NetHack che utilizza la popolare API OpenAI Gym, una suite di attività di benchmark e un agente di apprendimento automatico di base. Per battere la NetHack Challenge, i partecipanti devono sviluppare un’intelligenza artificiale in grado di vincere in modo affidabile su NetHack o ottenere il punteggio più alto possibile. In tal modo, il concorso mira a fornire un confronto testa a testa tra diversi metodi e nuovi parametri di riferimento per la ricerca futura, dimostrando allo stesso tempo l’idoneità del NHLE come ambiente di ricerca.

Non ci saranno restrizioni su come i sistemi possono essere addestrati per la NetHack Challenge, afferma Facebook: i partecipanti sono invitati a utilizzare tecniche oltre all’apprendimento automatico, se lo desiderano. Verranno assegnati premi per (1) il miglior sistema di intelligenza artificiale complessivo, (2) il miglior sistema di intelligenza artificiale che non utilizza una rete neurale e (3) il miglior sistema di intelligenza artificiale di un team accademico o indipendente.

Grefenstette, Rocktäschel e Hambro affermano che il raggiungimento di questi obiettivi getterà le basi per concorsi di follow-up incentrati su aspetti specifici dell’IA. Inoltre, la NetHack Challenge potrebbe aiutare a portare alla luce classi di metodi di addestramento e approcci di modellazione in grado di affrontare ambienti molto vari e un alto costo di errori, come dover ricominciare da capo se un personaggio viene ucciso da una creatura.

“Molti problemi del mondo reale e industriali, ad esempio la navigazione, condividono queste caratteristiche. Di conseguenza, fare progressi in NetHack significa fare progressi verso l’apprendimento per rinforzo in una gamma più ampia di applicazioni”, hanno affermato Grefenstette, Rocktäschel e Hambro.

NeurIPS 2021 NetHack Challenge di Facebook sarà condotto in collaborazione con il co-organizzatore AIcrowd e si svolgerà dall’inizio di giugno a ottobre. I vincitori saranno annunciati al NeurIPS a dicembre.

Di ihal