XLearn di DeepMind addestra gli agenti di intelligenza artificiale a completare attività complesse
DeepMind oggi ha dettagliato i suoi ultimi sforzi per creare sistemi di intelligenza artificiale in grado di completare una serie di compiti diversi e unici. Progettando un ambiente virtuale chiamato XLand, il laboratorio supportato da Alphabet afferma di essere riuscito ad addestrare sistemi con la capacità di risolvere problemi e giochi tra cui nascondino, catturare la bandiera e trovare oggetti, alcuni dei quali non hanno incontrato durante l’allenamento.
La tecnica di intelligenza artificiale nota come apprendimento per rinforzo ha mostrato un potenziale notevole, consentendo ai sistemi di imparare a giocare a giochi come scacchi, shogi, Go e StarCraft II attraverso un processo ripetitivo di tentativi ed errori. Ma la mancanza di dati di allenamento è stato uno dei principali fattori che limitano il comportamento dei sistemi di apprendimento per rinforzo essendo abbastanza generico da poter essere applicato a diversi giochi. Senza essere in grado di addestrare i sistemi su una serie sufficientemente ampia di compiti, i sistemi addestrati con l’apprendimento per rinforzo non sono stati in grado di adattare i loro comportamenti appresi a nuovi compiti.
DeepMind ha progettato XLand per affrontare questo problema, che include giochi multiplayer all’interno di mondi digitali coerenti e “riconoscibili dall’uomo”. Lo spazio simulato consente attività generate proceduralmente, consentendo ai sistemi di addestrarsi e generare esperienza da attività create in modo programmatico.
XLand offre miliardi di compiti in vari mondi e giocatori. L’intelligenza artificiale controlla i giocatori in un ambiente pensato per simulare il mondo fisico, allenandosi su una serie di giochi cooperativi e competitivi. L’obiettivo di ogni giocatore è massimizzare i premi e ogni gioco definisce i premi individuali per i giocatori.
“Queste interazioni complesse e non lineari creano una fonte ideale di dati su cui allenarsi, poiché a volte anche piccoli cambiamenti nei componenti dell’ambiente possono comportare grandi cambiamenti nelle sfide per i [sistemi]”, spiega DeepMind in un post sul blog .
XLand addestra i sistemi generando dinamicamente compiti in risposta al comportamento dei sistemi. Le funzioni di generazione delle attività dei sistemi si evolvono per adattarsi alle loro prestazioni e robustezza relative, e le generazioni di sistemi si avviano l’una dall’altra, introducendo giocatori sempre migliori nell’ambiente multiplayer.
DeepMind afferma che dopo aver addestrato i sistemi per cinque generazioni – 700.000 giochi unici in 4.000 mondi all’interno di XLand, con ogni sistema che ha sperimentato 200 miliardi di passaggi di allenamento – hanno visto miglioramenti costanti sia nell’apprendimento che nelle prestazioni. DeepMind ha scoperto che i sistemi mostravano comportamenti generali come la sperimentazione, come cambiare lo stato del mondo fino a raggiungere uno stato gratificante. Inoltre, hanno osservato che i sistemi erano consapevoli delle basi dei loro corpi, del passare del tempo e della struttura di alto livello dei giochi che incontravano.
Con soli 30 minuti di formazione mirata su un’attività complessa appena presentata, i sistemi potevano adattarsi rapidamente, mentre gli agenti addestrati con l’apprendimento per rinforzo da zero non potevano affatto apprendere le attività. “La missione di DeepMind di risolvere l’intelligenza per far progredire la scienza e l’umanità ci ha portato a esplorare come superare questa limitazione per creare [sistemi] di intelligenza artificiale con un comportamento più generale e adattivo”, ha affermato DeepMind. “Invece di imparare un gioco alla volta, questi [sistemi] sarebbero in grado di reagire a condizioni completamente nuove e svolgere un intero universo di giochi e compiti, compresi quelli mai visti prima”.