INSEGNARE ALL’IA ad ESSERE CURIOSa AIUTA LE MACCHINE A IMPARARE DA SÉ
La nuova ricerca di OpenAI utilizza l’IA curiosa per battere i videogiochi

Quando si gioca a un videogioco, cosa ti motiva a continuare?

Questa domanda è forse troppo ampia per dare una singola risposta, ma se dovessi riassumere il motivo per cui accetti quella prossima missione, salta su un nuovo livello, o cavalchi e giochi solo un altro turno, la spiegazione più semplice potrebbe essere “curiosità” – solo per vedere cosa succede dopo. E a quanto pare, la curiosità è un motivatore molto efficace quando insegna l’intelligenza artificiale a giocare anche ai videogiochi.

IN UNA PARTITA SENZA PREMI, INSEGNARE AI È DIFFICILE
Una ricerca pubblicata questa settimana dal laboratorio di intelligenza artificiale OpenAI spiega come un agente di intelligenza artificiale con un senso di curiosità abbia superato i suoi predecessori giocando al classico gioco Atari del 1984, La vendetta di Montezuma . Diventare abili a Montezuma’s Revenge non è una pietra miliare equivalente a battere Go o Dota 2 , ma è comunque un progresso notevole. Quando DeepMind, di proprietà di Google, ha pubblicato il suo seminale 2015 che spiega come ha battuto un numero di giochi Atari utilizzando l’apprendimento approfondito, Montezuma’s Revenge è stato l’unico gioco a cui è stato assegnato lo 0 percento.

Il motivo della difficoltà del gioco è una discrepanza tra il modo in cui gioca e il modo in cui gli agenti IA apprendono, il che rivela anche un punto cieco nella visione del mondo del machine learning.

Di solito, gli agenti IA si basano su un metodo di allenamento chiamato apprendimento di rinforzo per padroneggiare i videogiochi. In questo paradigma, gli agenti vengono scaricati nel mondo virtuale e premiati per alcuni risultati (come aumentare il loro punteggio) e penalizzati per gli altri (come perdere una vita). L’agente inizia a giocare casualmente, ma impara a migliorare la sua strategia attraverso tentativi ed errori. L’apprendimento di rinforzo è spesso pensato come un metodo chiave per la costruzione di robot più intelligenti.

Il problema con Montezuma’s Revenge è che non fornisce ricompense regolari per l’agente di intelligenza artificiale. È un puzzle-platform in cui i giocatori devono esplorare una piramide sotterranea, schivare trappole e nemici mentre raccolgono chiavi che sbloccano porte e oggetti speciali. Se stavi addestrando un agente di intelligenza artificiale per sconfiggere il gioco, potresti premiarlo per rimanere vivo e raccogliere le chiavi, ma come lo insegni a salvare certe chiavi per determinati oggetti e ad usare quegli oggetti per superare le trappole e completare il livello?

La risposta: curiosità.

Nella ricerca di OpenAI, il loro agente è stato premiato non solo per aver scavalcato buche di punte, ma per esplorare nuove parti nella piramide. Ciò ha portato a prestazioni migliori dell’essere umano, con il guadagno di un robot con un punteggio medio di 10.000 su nove run (rispetto a un punteggio medio umano di 4.000). In una corsa, ha anche completato il primo dei nove livelli del gioco.

“C’è ancora molto lavoro da fare”, spiega Harrison Edwards di OpenAI a The Verge . “Ma quello che abbiamo in questo momento è un sistema che può esplorare molte stanze, ottenere molti premi e, di tanto in tanto, superare il primo livello.” Aggiunge che gli altri livelli del gioco sono simili ai primi, quindi giocare attraverso l’intero cosa “è solo una questione di tempo”.

BATTERE IL “PROBLEMA DELLA TV RUMOROSA”
OpenAI è lontano dal primo laboratorio per provare questo approccio, ei ricercatori di IA hanno sfruttato il concetto di “curiosità” come motivazione per decenni . L’hanno anche applicato a Montezuma’s Revenge prima, anche se mai così efficacemente senza insegnare all’IA a imparare dagli esempi umani .

Tuttavia, mentre la teoria generale qui è ben consolidata, la costruzione di soluzioni specifiche è ancora impegnativa. Ad esempio, la curiosità basata sulla predizione è utile solo quando si impara a giocare con determinati tipi di giochi. Ad esempio, funziona con titoli come Mario , dove ci sono grandi livelli da esplorare, pieni di boss e nemici mai visti prima. Ma per giochi più semplici come Pong , gli agenti di IA preferiscono giocare a lunghi rally piuttosto che battere gli avversari. (Forse perché vincere la partita è più prevedibile che seguire il percorso della palla.)

L’INTELLIGENZA ARTIFICIALE PUÒ DIVENTARE DIPENDENTE DA RICOMPENSE CASUALI, PROPRIO COME GLI UMANI
Un altro problema è il ” Problema della TV Rumorosa ” , che è il luogo in cui gli agenti IA programmati per cercare nuove esperienze diventano dipendenti da modelli casuali, come una TV sintonizzata sul rumore statico. Questo perché il senso di questi agenti di ciò che è “interessante” e “nuovo” deriva dalla loro capacità di prevedere il futuro. Prima di prendere una certa azione, prevedono cosa sarà in seguito il gioco. Se indovinano correttamente, è probabile che abbiano già visto questa parte del gioco. Questo meccanismo è noto come “errore di predizione”.

Ma poiché il rumore statico è imprevedibile , il risultato è che qualsiasi agente di intelligenza artificiale confrontato con una tale TV (o uno stimolo simile imprevedibile) diventa ipnotizzato. OpenAI confronta il problema con i giocatori d’azzardo umani che sono dipendenti dalle slot machine, incapaci di distruggersi perché non sanno cosa succederà dopo.

Questa GIF mostra un agente di intelligenza artificiale che esplora un labirinto e viene distratto da immagini lampeggianti casuali.
GIF: OpenAI
Questa nuova ricerca di OpenAI aggira questo problema variando il modo in cui l’IA predice il futuro. La metodologia esatta (denominata Random Network Distillation) è complessa, ma Edwards e il suo collega Yuri Burda lo confrontano per nascondere un segreto per l’intelligenza artificiale da trovare in ogni schermata del gioco. Quel segreto è casuale e privo di significato (qualcosa come “qual è il colore nella parte in alto a sinistra dello schermo?” Suggerisce Edwards), ma motiva l’agente a esplorare senza renderlo vulnerabile alla trappola di Noisy TV.

Ancora più importante, questo motivatore non richiede molti calcoli, il che è incredibilmente importante. Questi metodi di apprendimento del rinforzo si basano su enormi quantità di dati per addestrare agenti di IA (il bot di OpenAI, ad esempio, doveva giocare a Montezuma’s Revenge per l’equivalente in tempo reale di tre anni), quindi ogni fase del viaggio deve essere il più veloce possibile.

“IN REALTÀ È MOLTO PIÙ SEMPLICE DI ALTRI METODI DI ESPLORAZIONE.”
Arthur Juliani, ingegnere informatico presso Unity ed esperto di machine learning, afferma che questo è ciò che rende impressionante il lavoro di OpenAI. “Il metodo che usano è davvero semplice e quindi sorprendentemente efficace”, dice Juliani a The Verge . “In realtà è molto più semplice di altri metodi di esplorazione che sono stati applicati al gioco in passato (e [che non hanno portato a risultati altrettanto impressionanti].”

Juliani dice che date le somiglianze tra i diversi livelli di Montezuma’s Revenge, il lavoro di OpenAI è “sostanzialmente equivalente” alla risoluzione del gioco, ma aggiunge che “il fatto che non siano in grado di battere costantemente il primo livello significa che ce ne sono ancora alcuni di una sfida aperta a sinistra. “Si chiede anche se il loro approccio funzionerà nei giochi 3D, dove le caratteristiche visive sono più sottili e una visione in prima persona occlude gran parte del mondo.

“Negli scenari in cui è richiesta l’esplorazione, ma le differenze tra le parti dell’ambiente sono più sottili, il metodo potrebbe non funzionare altrettanto bene”, afferma Juliani.

I robot nel mondo reale, come SpotMini di Boston Dynamics, potrebbero anche beneficiare della curiosità artificiale.
Foto di Matt Winkelmeyer / Getty Images per WIRED25
IL PUNTO DI CURIOSITÀ
Ma perché abbiamo bisogno dell’IA curiosa in primo luogo? Che bene ci fa, oltre a fornire umoristici parallelismi con la nostra tendenza umana ad essere irretiti da modelli casuali

La grande ragione è che la curiosità aiuta i computer a imparare da soli.

La maggior parte degli approcci di apprendimento automatico distribuiti oggi può essere suddivisa in due campi: nel primo, le macchine imparano guardando pile di dati, elaborando schemi che possono applicare a problemi simili; e nel secondo, vengono rilasciati in un ambiente e premiati per il raggiungimento di determinati risultati mediante l’apprendimento di rinforzo.

Entrambi questi approcci sono efficaci in compiti specifici, ma richiedono anche molto lavoro umano, etichettando i dati di addestramento o progettando funzioni di ricompensa per ambienti virtuali. Dando ai sistemi di intelligenza artificiale un incentivo intrinseco all’esplorazione a fini di esplorazione, parte di questo lavoro viene eliminato e gli esseri umani trascorrono meno tempo a tenere le mani dell’agente di intelligenza artificiale. (Metaforicamente parlando.)

Edwards e Burda di OpenAI affermano che questo tipo di sistema di apprendimento basato sulla curiosità è molto più utile per costruire programmi per computer che devono operare nel mondo reale. Dopotutto, in realtà, come nella Vendetta di Montezuma, i premi immediati sono spesso scarsi e abbiamo bisogno di lavorare, imparare ed esplorare per lunghi periodi di tempo prima di ottenere qualcosa in cambio. La curiosità ci aiuta a continuare, e forse può aiutare anche i computer.

Di ihal

Lascia un commento