La scorsa settimana, l’umanità ha vinto contro le macchine – una specie di partita .
In realtà, li abbiamo battuti in un videogioco. In una partita al meglio dei tre , due squadre di giocatori professionisti hanno superato una squadra di robot IA creati dal laboratorio di ricerca OpenAI di Elon Musk. I concorrenti stavano giocando a Dota 2 , un gioco di arena di battaglia straordinariamente popolare e complesso. Ma la partita è stata anche una sorta di cartina di tornasole per l’intelligenza artificiale: l’ultima misura di alto profilo della nostra ambizione di creare macchine in grado di farci pensare.
Nella scheda di valutazione dell’IA umana, l’intelligenza artificiale ha collezionato alcune grandi vittorie recentemente. Degna di nota è stata la sconfitta dei migliori giocatori di Go del mondo da parte di DeepMind AlphaGo, un risultato che gli esperti hanno pensato di raggiungere per almeno un decennio. Recentemente, i ricercatori hanno rivolto la loro attenzione ai videogiochi come la prossima sfida. Sebbene i videogiochi non abbiano la reputazione intellettuale di Go e scacchi, in realtà sono molto più difficili da giocare per i computer. Trattengono le informazioni dai giocatori; si svolgono in ambienti complessi e in continua evoluzione; e richiedono quel tipo di pensiero strategico che non può essere facilmente simulato. In altre parole, sono più vicini ai tipi di problemi che vogliamo affrontare nella vita reale.
LA SCONFITTA DI OPENAI È SOLO UN “BUMP ON THE ROAD” PER IL PROGRESSO DELL’IA
Dota 2 è un terreno di prova particolarmente popolare e OpenAI è pensato per avere i migliori robot Dota 2 incircolazione. Ma la scorsa settimana hanno perso. Allora, cos’è successo? Abbiamo raggiunto una sorta di soffitto nell’abilità dell’IA? Questa è la prova che alcune abilità sono troppo complesse per i computer?
Le risposte brevi sono no e no. Questo era solo un “bump on the road”, afferma Stephen Merity, un ricercatore di machine learning e fan di Dota 2 . Le macchine conquisteranno il gioco alla fine, e sarà probabilmente OpenAI che incrina il caso. Ma spacchettare il motivo per cui gli umani hanno vinto la scorsa settimana e quello che OpenAI è riuscito a ottenere – anche nella sconfitta – è comunque utile. Ci dice che cosa può o non può fare l’IA e che cosa accadrà.
Uno screenshot di Dota 2, un gioco di battaglia ambientato nell’arena fantasy in cui due squadre di cinque eroi combattono per distruggersi a vicenda. Il gioco è complesso e le partite durano in genere più di 30 minuti.
IMPARARE COME UN ROBOT: SE ALL’INIZIO NON CI RIESCI
Innanzitutto, inseriamo le corrispondenze della scorsa settimana nel contesto. I robot sono stati creati da OpenAI come parte del suo ampio mandato di ricerca per sviluppare l’intelligenza artificiale che “avvantaggia tutta l’umanità”. È una direttiva che giustifica molte ricerche diverse e ha attirato alcuni dei migliori scienziati del settore. Formando il suo team di robot Dota 2 (soprannominato OpenAI Five), il laboratorio afferma di voler sviluppare sistemi in grado di “gestire la complessità e l’incertezza del mondo reale”.
I cinque robot (che operano in modo indipendente ma sono stati addestrati usando gli stessi algoritmi) hanno insegnato a giocare a Dota 2 usando una tecnica chiamata apprendimento di rinforzo. Questo è un metodo di allenamento comune che è essenzialmente trial-and-error su vasta scala. (Ha i suoi punti deboli, ma produce anche risultati incredibili, tra cui AlphaGo.) Invece di codificare i robot con le regole di Dota 2 , vengono lanciati nel gioco e lasciati a capire le cose da soli. Gli ingegneri di OpenAI aiutano questo processo ricompensandoli per il completamento di determinati compiti (come uccidere un avversario o vincere una partita) ma niente di più.
“100 VITE UMANE DI ESPERIENZA OGNI SINGOLO GIORNO”
Ciò significa che i robot iniziano a giocare in modo completamente casuale e, nel tempo, imparano a collegare determinati comportamenti ai premi. Come puoi immaginare, questo è un modo estremamente inefficiente per imparare. Di conseguenza, i robot devono giocare a Dota 2 ad una velocità accelerata, mettendo a dura prova ogni giorno 180 anni di allenamento. Come il CTO e co-fondatore di OpenAI Greg Brockman ha detto a The Verge all’inizio di quest’anno , se ci vuole un umano tra 12.000 e 20.000 ore di pratica per padroneggiare una certa abilità, allora i robot bruciano “100 vite umane di esperienza ogni singolo giorno”.
Parte del motivo per cui ci vuole così tanto tempo è che Dota 2 è estremamente complesso, molto più di un gioco da tavolo. Due squadre di cinque si affrontano l’una sull’altra su una mappa piena di personaggi non giocabili, ostacoli e edifici distruttibili, che hanno tutti un effetto sull’ondata della battaglia. Gli eroi devono farsi strada verso la base del loro avversario e distruggerlo mentre si destreggiano tra vari meccanismi. Ci sono centinaia di oggetti che possono raccogliere o acquistare per aumentare le loro abilità, e ogni eroe (di cui ce ne sono più di 100) ha le sue mosse e attributi unici. Ogni partita di Dota 2 è come una battaglia dell’antichità giocata in miniatura, con squadre che si contendono il territorio e lottano per superare gli avversari.
Elaborare tutti questi dati in modo che i giochi possano essere giocati a un ritmo più veloce della vita è una grande sfida. Per addestrare i loro algoritmi, OpenAI ha dovuto accumulare una notevole quantità di potenza di elaborazione: circa 256 GPU e 128.000 core di CPU. Questo è il motivo per cui gli esperti parlano spesso di OpenAI Five come di un progetto di ingegneria tanto quanto di ricerca: è un risultato solo per far funzionare il sistema, per non parlare di battere gli umani.
“Per quanto riguarda il […] livello di complessità che i moderni approcci AI basati sui dati possono gestire, OpenAI Five è molto più impressionante di DQN o AlphaGo”, afferma Andrey Kurenkov, studente di dottorato presso Stanford che studia informatica e redattore del sito AI di Skynet oggi . (DQN era il sistema AI di DeepMind che si insegnava a suonare Atari.) Ma, osserva Kurenkov, mentre questi progetti più vecchi introducevano “idee significative e innovative” a livello di pura ricerca, OpenAI Five sta principalmente implementando strutture esistenti in un contesto precedentemente sconosciuto. scala. Vincere o perdere, è ancora grande.
All’inizio di quest’anno, OpenAI Five ha sconfitto una squadra di giocatori dilettanti come punto di riferimento delle sue abilità.
Foto: OpenAI
LE MACCHINE ANCORA MANCANO DI UN PIANO DI GIOCO
Ma mettendo da parte l’ingegneria, quanto possono essere bravi i robot se hanno appena perso due partite contro gli umani? È una domanda giusta, e la risposta è: ancora piuttosto dannatamente bene.
Nell’ultimo anno, i robot si sono laureati attraverso versioni progressivamente più difficili del gioco, a partire da 1v1 attacchi, quindi 5v5 partite con restrizioni. Tuttavia, devono ancora affrontare la piena complessità del gioco e hanno giocato con determinate meccaniche di gioco disattivate. Per le partite di The International, alcuni di questi vincoli sono stati rimossi, ma non tutti. In particolare, i bot non avevano più corrieri invulnerabili (NPC che consegnano oggetti agli eroi). Questi erano stati in precedenza un elemento importante per il loro stile di gioco, trasportando un flusso affidabile di pozioni di guarigione per aiutarli a mantenere un attacco implacabile. All’International, dovevano preoccuparsi che le loro linee di rifornimento venissero rimosse.
SE I ROBOT ABBIANO O NO PADRONEGGIATO LA STRATEGIA A LUNGO TERMINE È UNA QUESTIONE CHIAVE
Sebbene i giochi della scorsa settimana siano ancora in fase di analisi, il primo consenso è che i robot hanno giocato bene ma non in modo eccezionale. Non erano esperti di intelligenza artificiale; avevano punti di forza e di debolezza, che gli umani potevano sfruttare come farebbero contro qualsiasi squadra.
Entrambi i giochi sono partiti molto in alto, con gli umani che prima hanno preso il comando, poi i robot, poi gli umani. Ma entrambe le volte, una volta che gli umani ottenevano un considerevole vantaggio, i robot trovavano difficile riprendersi. I commentatori del gioco hanno ipotizzato che ciò potrebbe essere dovuto al fatto che l’IA preferiva “vincere di 1 punto con il 90% di certezza, che vincere di 50 punti con una certezza del 51%”. (Questo tratto era evidente anche nello stile di gioco di AlphaGo). Ciò implica che OpenAI Five è stato utilizzato per macinare vittorie costanti ma prevedibili. Quando i robot persero il loro vantaggio, non furono in grado di rendere i giochi più avventurosi necessari per riconquistarlo.
Video della seconda partita di OpenAI Five al The International.
Questa è solo una supposizione, però. Come di solito accade con l’intelligenza artificiale, è impossibile dividere l’esatto processo di pensiero dietro le azioni dei robot. Ciò che possiamo dire è che eccellevano da vicino, ma trovavano più difficile abbinare le strategie a lungo termine degli umani.
Gli OpenAI Five erano indiscutibilmente precisi, aggressivi che scacciavano bersagli con incantesimi e attacchi, e in genere costituivano una minaccia per gli eroi nemici che incontravano. Mike Cook, ricercatore di giochi di intelligenza artificiale presso l’Università di Falmouth e un appassionato giocatore di Dota che ha twittato i combattimenti, ha descritto lo stile dei robot come “ipnotico”. “Agiscono con precisione e chiarezza”, ha detto Cook a The Verge . “Spesso, gli umani vincono un combattimento e poi abbassano leggermente la guardia, aspettandosi che la squadra nemica si ritirino e si raggruppino. Ma i robot non lo fanno. Se riescono a vedere un’uccisione, la prendono “.
“SE RIESCONO A VEDERE UN’UCCISIONE, LA PRENDONO”.
Dove i bot sembravano inciampare era nel lungo gioco, pensando a come le partite potrebbero svilupparsi in intervalli di 10 o 20 minuti. Nel secondo dei loro due incontri contro una squadra di pro gamer cinesi con una reputazione terrificante (erano variamente citati dai commentatori come “il vecchio club delle leggende” o, più semplicemente, “gli dei”), gli umani optarono per un strategia asimmetrica. Un giocatore raccolse risorse per potenziare lentamente il suo eroe, mentre gli altri quattro eseguivano interferenze per lui. I robot non sembravano accorgersi di ciò che stava accadendo, tuttavia, e alla fine del gioco, la squadra umana aveva un eroe truccato che aveva aiutato a devastare i giocatori di IA. “Questo è uno stile naturale per gli umani che interpretano Dota “, afferma Cook. “[Ma] ai robot, è una pianificazione a lungo termine.”
Questa questione di strategia è importante non solo per OpenAI, ma per la ricerca AI più in generale. L’assenza di una pianificazione a lungo termine è spesso vista come un grande difetto dell’apprendimento di rinforzo perché l’intelligenza artificiale creata con questo metodo spesso enfatizza i profitti immediati piuttosto che i guadagni a lungo termine. Questo perché è difficile strutturare un sistema di ricompensa che funzioni per periodi di tempo più lunghi. Come si insegna a un robot a ritardare l’uso di un potente incantesimo finché i nemici non vengono raggruppati se non è possibile prevedere quando ciò accadrà? Gli dai semplicemente piccoli premi per non usare quella magia? Cosa succede se decide di non usarlo mai come risultato? E questo è solo un esempio di base. Dota 2 i giochi generalmente durano dai 30 ai 45 minuti e i giocatori devono costantemente pensare a quali azioni porteranno al successo a lungo termine.
È importante sottolineare, tuttavia, che i robot non erano solo gremlini insensati e premurosi. La rete neurale che controlla ciascun eroe ha un componente di memoria che apprende determinate strategie. E il modo in cui rispondono alle ricompense è modellato in modo che i robot considerino i pagamenti futuri e quelli che sono più immediati. In effetti, OpenAI afferma che i suoi agenti di intelligenza artificiale lo fanno in misura molto maggiore rispetto a qualsiasi altro sistema comparabile, con una “mezza vita di ricompensa” di 14 minuti (grosso modo, il tempo in cui i robot possono attendere i futuri guadagni).
Kurenkov, che ha scritto ampiamente sui limiti dell’apprendimento rinforzato , ha detto che le partite mostrano che l’apprendimento di rinforzo può gestire “molta più complessità di quanto la maggior parte dei ricercatori di IA potrebbe aver immaginato.” Ma, aggiunge, la sconfitta della scorsa settimana suggerisce che i nuovi sistemi sono necessari specificamente gestire il pensiero a lungo termine. (Non sorprende che il responsabile della tecnologia di OpenAI non sia d’ accordo ).
A differenza del risultato delle partite, qui non c’è una conclusione ovvia. Il disaccordo sul successo dei robot rispecchia le discussioni più ampie e non risolte sull’IA. Come ha osservato su Twitter il ricercatore Julian Togelius , come possiamo persino cominciare a distinguere tra strategia a lungo termine e comportamento che sembra proprio questo? Importa? Tutto quello che sappiamo per ora è che in questo particolare dominio, l’intelligenza artificiale non può ancora pensare agli umani.
Dota 2 offre più di 100 eroi diversi con una gamma di abilità, e AI deve ancora padroneggiarli tutti.
Immagine: Valve
L’IMPOSSIBILITÀ DI PARITÀ DI CONDIZIONI
La lotta contro l’intelligenza dei robot è una cosa, ma le partite di Dota 2 di OpenAI Five hanno sollevato anche un’altra domanda fondamentale: perché mettiamo in scena questi eventi?
Prendi i commenti di Gary Marcus, un rispettato critico dei limiti dell’IA contemporanea . In vista dei giochi OpenAI della scorsa settimana, Marcus ha sottolineato su Twitter che i robot non giocano abbastanza. A differenza dei giocatori umani (o di altri sistemi IA), in realtà non guardano lo schermo per giocare. Al contrario, usano la “bot API” di Dota 2 per capire il gioco. Questo è un feed di 20.000 numeri che descrive cosa sta succedendo in forma numerica, incorporando informazioni su tutto, dalla posizione di ciascun eroe alla loro salute fino al cooldown di incantesimi e attacchi individuali.
Come Marcus dice a The Verge , questo “scorciatoia il problema enormemente impegnativo della percezione della scena” e offre ai robot un enorme vantaggio. Non devono cercare la mappa per verificare dove si trova la loro squadra, per esempio, o dare un’occhiata all’interfaccia utente per vedere se il loro incantesimo più potente è pronto. Non devono indovinare la salute di un nemico o stimare la loro distanza per vedere se un attacco ne vale la pena. Loro solo sanno .
Ma questo conta come un imbroglio?
Ci sono alcuni modi per rispondere a questo. Innanzitutto, OpenAI avrebbe potuto creare un sistema di visione per leggere i pixel e recuperare le stesse informazioni fornite dall’API del bot. (Il motivo principale per cui non è che sarebbe stato incredibilmente ricco di risorse.) Questo è difficile da giudicare, poiché nessuno sa se funzionerà fino a quando qualcuno non lo farà. Ma forse è irrilevante. La domanda più importante potrebbe essere: possiamo mai avere una giusta lotta tra umani e macchine? Dopotutto, se vogliamo approssimare il modo in cui gli umani giocano a Dota 2 , abbiamo bisogno di costruire mani robot per gli OpenAI Five per azionare un mouse e una tastiera? Per renderlo ancora più giusto, le mani dovrebbero sudare ?
LE MACCHINE PENSANO COME GLI UMANI NELLO STESSO MODO IN CUI GLI AEREI VOLANO COME UCCELLI
Queste domande sono un po ‘sfaccettate, ma sottolineano l’impossibilità di creare un campo di gioco veramente equilibrato tra uomo e computer. Una cosa del genere non esiste perché le macchine pensano come gli esseri umani allo stesso modo in cui gli aerei volano come uccelli. Come dice Cook, ricercatore di giochi di intelligenza artificiale, “I computer sono migliori di noi per le cose. Ecco perché abbiamo inventato i computer. ”
Forse dovremmo pensare un po ‘più a fondo al motivo per cui teniamo questi eventi in primo luogo. Brockman dice a The Verge che c’è di più rispetto ai giochi. “Il motivo per cui facciamo Dota non è così che possiamo risolvere Dota “, dice. “Siamo in questo perché pensiamo di poter sviluppare la tecnologia di intelligenza artificiale che può alimentare il mondo nei prossimi decenni.”
C’è verità in questa affermazione ambiziosa. L’infrastruttura di addestramento utilizzata per insegnare gli OpenAI Five, un sistema chiamato Rapid, è già stata trasformata in altri progetti. OpenAI lo ha usato per insegnare alle mani dei robot a manipolare oggetti con nuovi livelli di destrezza umana , per esempio. Come sempre con l’intelligenza artificiale, ci sono dei limiti e Rapid non è un algoritmo del fare tutto. Ma il principio generale vale: il lavoro necessario per raggiungere obiettivi anche arbitrari (come battere gli umani in un videogioco) aiuta a stimolare l’intero campo dell’IA.
Il giocatore sudcoreano Lee Sedol è stato sconfitto da AlphaGo nel 2016, ma ha acquisito nuove abilità come risultato.
Foto: Google / Getty Images
E aiuta anche quelli sfidati dalle macchine. Una delle parti più affascinanti della storia di AlphaGo è che, sebbene il campione umano Lee Sedol sia stato sconfitto da un sistema di intelligenza artificiale, anche lui e il resto della comunità di Go hanno imparato da esso. Lo stile di gioco di AlphaGo ha sconvolto secoli di saggezza accettata. Le sue mosse sono ancora in fase di studio, e Lee ha iniziato una serie di vittorie dopo la sua partita contro la macchina.
La stessa cosa sta già cominciando ad accadere nel mondo di Dota 2 : i giocatori stanno studiando il gioco OpenAI Five per scoprire nuove tattiche e mosse. Almeno una meccanica di gioco precedentemente sconosciuta, che consente ai giocatori di ricaricare rapidamente una certa arma rimanendo fuori dalla portata del nemico, è stata scoperta dai robot e trasmessa agli umani. Come afferma la ricercatrice AI, Merity: “Voglio letteralmente sedermi e guardare queste partite così posso imparare nuove strategie. Le persone guardano queste cose e dicono: ‘Questo è qualcosa che dobbiamo inserire nel gioco’ “.
Questo fenomeno dell’intelligenza artificiale nell’uomo è destinato a diventare più comune solo in futuro. In un modo strano, sembra quasi un atto di benevolenza. Come se, in un’esibizione di grazia umana, i robot ci stessero dando un regalo di addio mentre superano le nostre capacità. Non è vero, naturalmente; L’intelligenza artificiale è solo un altro metodo che gli umani hanno inventato per insegnare a noi stessi. Ma è per questo che suoniamo. È un’esperienza di apprendimento – per noi e le macchine.