I ricercatori di intelligenza artificiale creano modelli di gioco di videogiochi che possono ricordare eventi passati
Un team di ricercatori del laboratorio di intelligenza artificiale di Uber ha recentemente sviluppato un sistema di algoritmi di intelligenza artificiale che ha sovraperformato sia i giocatori umani che altri sistemi di intelligenza artificiale nei videogiochi Atari classici. Il sistema di intelligenza artificiale sviluppato dai ricercatori è in grado di ricordare strategie di successo in precedenza, creando nuove strategie basate su ciò che ha funzionato in passato. Il team di ricerca dello studio ritiene che gli algoritmi che hanno sviluppato abbiano potenziali applicazioni in altri campi tecnici come l’elaborazione del linguaggio e la robotica.
Il metodo tipico utilizzato per creare sistemi di intelligenza artificiale in grado di giocare ai videogiochi è utilizzare un algoritmo di apprendimento per rinforzo . Gli algoritmi di apprendimento per rinforzo imparano come svolgere un’attività esplorando una serie di azioni possibili e, dopo ogni azione, vengono forniti con un tipo di rinforzo (una ricompensa o una punizione). Nel tempo, il modello di intelligenza artificiale apprende quali azioni portano a ricompense maggiori e diventa più probabile che esegua queste azioni. Sfortunatamente, i modelli di apprendimento per rinforzo incontrano problemi quando incontrano punti dati incongruenti con altri nel set di dati.
Secondo il team di ricerca, il motivo per cui il loro approccio non era stato preso in considerazione da altri ricercatori di intelligenza artificiale è che la strategia differisce dall’approccio della “motivazione intrinseca” tipicamente utilizzato nell’apprendimento per rinforzo. Il problema con un approccio basato sulla motivazione intrinseca è che il modello può essere incline a “dimenticare” aree potenzialmente gratificanti che meritano ancora di essere esplorate. Questo fenomeno è denominato “distacco”. Di conseguenza, quando il modello rileva dati imprevisti, può dimenticare le aree che dovrebbero ancora essere esplorate.
Secondo TechXplore , il team di ricerca si è proposto di creare un modello di apprendimento più flessibile e in grado di rispondere a dati imprevisti. I ricercatori hanno superato questo problema introducendo un algoritmo in grado di ricordare tutte le azioni intraprese da una versione precedente del modello quando ha cercato di risolvere un problema. Quando il modello AI incontra un punto dati che non è coerente con quanto appreso finora, il modello controlla la sua mappa di memoria. Il modello identificherà quindi quali strategie hanno avuto successo e quali fallite e sceglierà le strategie in modo appropriato.
Durante la riproduzione di un videogioco, il modello raccoglie schermate del gioco durante la riproduzione, creando un registro delle sue azioni. Le immagini sono raggruppate in base alla somiglianza, formando chiari punti nel tempo a cui il modello può fare riferimento. L’algoritmo può utilizzare le immagini registrate per tornare a un punto interessante nel tempo e continuare l’esplorazione da lì. Quando il modello scopre che sta perdendo, farà riferimento agli screenshot presi e proverà una strategia diversa.
Come spiegato dalla BBC , c’è anche il problema di gestire scenari pericolosi per l’agente dell’IA che sta giocando. Se l’agente si imbatte in un pericolo che può ucciderlo, ciò gli impedirebbe di tornare in aree che meritano una maggiore esplorazione, un problema chiamato “deragliamento”. Il modello AI gestisce i problemi di deragliamento attraverso un processo separato da quello utilizzato per incoraggiare l’esplorazione di vecchie aree.
Il team di ricerca ha fatto giocare la modalità attraverso 55 giochi Atari. Questi giochi sono comunemente usati per confrontare le prestazioni dei modelli di intelligenza artificiale, ma i ricercatori hanno aggiunto una svolta al loro modello. I ricercatori hanno introdotto regole aggiuntive ai giochi, istruendo il modello non solo a ottenere il punteggio più alto possibile, ma anche a cercare di ottenere un punteggio ancora più alto ogni volta. Quando sono stati analizzati i risultati delle prestazioni del modello, i ricercatori hanno scoperto che il loro sistema di intelligenza artificiale ha superato le altre IA nei giochi circa l’85% delle volte. L’intelligenza artificiale si è comportata particolarmente bene nel gioco Montezuma’s Revenge, un gioco platform in cui il giocatore schiva i pericoli e raccoglie tesori. Il gioco ha battuto il record per un giocatore umano e ha anche ottenuto punteggi più alti di qualsiasi altro sistema di intelligenza artificiale.
Secondo i ricercatori di Uber AI, le strategie utilizzate dal team di ricerca hanno applicazioni per settori come la robotica. I robot traggono vantaggio dalla capacità di ricordare quali azioni hanno avuto successo, quali non hanno funzionato e quali non sono state ancora provate.