Gli agenti di intelligenza artificiale di DeepMind superano il gameplay “a livello umano” in Quake III

Gli agenti di IA continuano a collezionare vittorie nel mondo dei videogiochi. La scorsa settimana, i bot di OpenAI stavano giocando a Dota 2 ; questa settimana, è Quake III , con un team di ricercatori della sussidiaria DeepMind di Google che sta addestrando con successo agenti in grado di battere gli umani in una partita di cattura della bandiera .

Come abbiamo visto con esempi precedenti di AI che giocano ai videogiochi, la sfida qui è la formazione di un agente in grado di navigare in un ambiente 3D complesso con informazioni imperfette. I ricercatori di DeepMind hanno utilizzato un metodo di allenamento dell’IA che sta anche diventando uno standard: l’apprendimento di rinforzo, che è fondamentalmente allenamento per tentativi ed errori su vasta scala.

I ROBOT DI DEEPMIND HANNO IMPARATO GIOCANDO A 450.000 PARTITE CONTRO SE STESSI
Agenti non ricevono istruzioni su come giocare, ma semplicemente competono contro se stessi fino a quando non escono dalle strategie necessarie per vincere. Di solito questo significa una versione dell’agente AI che gioca contro un clone identico. DeepMind ha dato maggiore profondità a questa formula formando un’intera coorte di 30 agenti per introdurre una “diversità” di stili di gioco. Quanti giochi ci vogliono per allenare un’IA in questo modo? Quasi mezzo milione, ciascuno della durata di cinque minuti.

Come sempre, è impressionante come una tecnica così concettualmente semplice possa generare comportamenti complessi per conto dei robot. Gli agenti di DeepMind non solo hanno imparato le regole di base per catturare la bandiera (afferra la bandiera dei tuoi avversari dalla loro base e la restituiscono alla tua prima che facciano lo stesso a te), ma strategie come difendere la tua bandiera, accamparsi nella base del tuo avversario, e seguire i compagni di squadra in giro in modo da poter combattere contro il nemico.

Per rendere la sfida più difficile per gli agenti, ogni partita è stata giocata su una mappa completamente nuova generata proceduralmente. Ciò ha assicurato che i robot non stessero imparando strategie che funzionassero solo su una singola mappa.

A differenza dei bot Dota 2 di OpenAI , anche gli agenti di DeepMind non hanno avuto accesso a dati numerici grezzi sul gioco – feed di numeri che rappresentano informazioni come la distanza tra avversari e barre della salute. Invece, hanno imparato a suonare solo guardando l’input visivo dallo schermo, lo stesso di un essere umano. Tuttavia, questo non significa necessariamente che i robot di DeepMind hanno affrontato una sfida più grande; Dota 2 è in generale un gioco molto più complesso rispetto alla versione ridotta di Quake IIIche è stata utilizzata in questa ricerca.

Per testare le abilità degli agenti AI, DeepMind ha tenuto un torneo, con squadre di soli due robot, solo umani, e una miscela di robot e umani che si sono squadrati uno contro l’altro. I team solo per i bot hanno ottenuto il maggior successo, con una probabilità di vincita del 74%. Questo rispetto al 43 probabilità precent per i giocatori umani medi, e il 52% di probabilità per i giocatori umani forti. Quindi: chiaramente gli agenti di intelligenza artificiale sono i giocatori migliori.

Un grafico che mostra la valutazione Elo (abilità) di vari giocatori. Gli agenti “FTW” sono DeepMind’s, che hanno giocato contro se stessi in una squadra di 30.
Credito: DeepMind
Tuttavia, vale la pena notare che maggiore è il numero di bot DeepMind su una squadra, peggio che hanno fatto. Un team di quattro bot DeepMind ha avuto una probabilità di vincita del 65%, suggerendo che mentre gli agenti IA dei ricercatori hanno imparato alcunielementi di gioco cooperativo, questi non necessariamente si adattano a dinamiche di gruppo più complesse.

Come sempre con una ricerca come questa, l’obiettivo non è quello di battere effettivamente gli umani nei videogiochi, ma di trovare nuovi modi di insegnare agli agenti di navigare in ambienti complessi perseguendo un obiettivo condiviso. In altre parole, si tratta di insegnare l’intelligenza collettiva – qualcosa che ha (nonostante abbondanti prove del contrario) essere parte integrante del successo dell’umanità come specie. Catturare la bandiera è solo un proxy per i giochi più grandi a venire.

Di ihal

Lascia un commento