“Influenzare il comportamento a lungo termine nell’apprendimento per rinforzo multiagente”
 
Il nuovo sistema può insegnare a un gruppo di agenti AI cooperativi o competitivi a trovare una soluzione ottimale a lungo termine

 

Immagina due squadre che si affrontano su un campo di calcio. I giocatori possono cooperare per raggiungere un obiettivo e competere contro altri giocatori con interessi contrastanti. Ecco come funziona il gioco.

La creazione di agenti di intelligenza artificiale in grado di imparare a competere e cooperare con la stessa efficacia degli esseri umani rimane un problema spinoso. Una sfida chiave è consentire agli agenti di intelligenza artificiale di anticipare i comportamenti futuri di altri agenti quando stanno imparando tutti contemporaneamente.

A causa della complessità di questo problema, gli approcci attuali tendono ad essere miopi; gli agenti possono solo indovinare le prossime mosse dei loro compagni di squadra o concorrenti, il che porta a prestazioni scadenti a lungo termine. 

I ricercatori del MIT, del MIT-IBM Watson AI Lab e di altri luoghi hanno sviluppato un nuovo approccio che offre agli agenti di intelligenza artificiale una prospettiva lungimirante. Il loro framework di apprendimento automatico consente agli agenti di intelligenza artificiale cooperativa o competitiva di considerare cosa faranno gli altri agenti man mano che il tempo si avvicina all’infinito, non solo per alcuni passaggi successivi. Gli agenti quindi adattano i loro comportamenti di conseguenza per influenzare i comportamenti futuri di altri agenti e arrivare a una soluzione ottimale a lungo termine.

Questo framework potrebbe essere utilizzato da un gruppo di droni autonomi che lavorano insieme per trovare un escursionista smarrito in una fitta foresta, o da auto a guida autonoma che si sforzano di proteggere i passeggeri anticipando i movimenti futuri di altri veicoli che guidano su un’autostrada trafficata.

“Quando gli agenti di intelligenza artificiale collaborano o competono, ciò che conta di più è quando i loro comportamenti convergono in un momento futuro. Ci sono molti comportamenti transitori lungo la strada che non contano molto a lungo termine. Raggiungere questo comportamento convergente è ciò che ci interessa davvero, e ora abbiamo un modo matematico per consentirlo”, afferma Dong-Ki Kim, uno studente laureato presso il MIT Laboratory for Information and Decision Systems (LIDS) e autore principale di un documento descrivere questo quadro.

L’autore senior è Jonathan P. How, professore di aeronautica e astronautica Richard C. Maclaurin e membro del MIT-IBM Watson AI Lab. I coautori includono altri al MIT-IBM Watson AI Lab, IBM Research, Mila-Quebec Artificial Intelligence Institute e Oxford University. La ricerca sarà presentata alla  Conferenza sui sistemi neurali di elaborazione delle informazioni .

Più agenti, più problemi

I ricercatori si sono concentrati su un problema noto come apprendimento per rinforzo multiagente. L’apprendimento per rinforzo è una forma di apprendimento automatico in cui un agente di intelligenza artificiale apprende per tentativi ed errori. I ricercatori danno all’agente una ricompensa per comportamenti “buoni” che lo aiutano a raggiungere un obiettivo. L’agente adatta il suo comportamento per massimizzare quella ricompensa finché alla fine non diventa un esperto in un compito.

Ma quando molti agenti cooperativi o concorrenti imparano contemporaneamente, le cose diventano sempre più complesse. Mentre gli agenti considerano più passi futuri dei loro colleghi agenti e come il loro comportamento influenza gli altri, il problema richiede presto troppa potenza di calcolo per essere risolto in modo efficiente. Questo è il motivo per cui altri approcci si concentrano solo sul breve termine.

“Le IA vogliono davvero pensare alla fine del gioco, ma non sanno quando il gioco finirà. Devono pensare a come continuare ad adattare il loro comportamento all’infinito in modo da poter vincere in un momento lontano nel futuro. Il nostro documento propone essenzialmente un nuovo obiettivo che consente a un’intelligenza artificiale di pensare all’infinito”, afferma Kim.

Ma poiché è impossibile inserire l’infinito in un algoritmo, i ricercatori hanno progettato il loro sistema in modo che gli agenti si concentrino su un punto futuro in cui il loro comportamento convergerà con quello di altri agenti, noto come equilibrio. Un punto di equilibrio determina le prestazioni a lungo termine degli agenti e possono esistere più equilibri in uno scenario multiagente. Pertanto, un agente efficace influenza attivamente i comportamenti futuri di altri agenti in modo tale che raggiungano un equilibrio desiderabile dal punto di vista dell’agente. Se tutti gli agenti si influenzano a vicenda, convergono verso un concetto generale che i ricercatori chiamano “equilibrio attivo”.

Il framework di apprendimento automatico che hanno sviluppato, noto come FURTHER (che sta per FUlly Reinforcing acTive influence with averagE Reward), consente agli agenti di imparare come adattare i loro comportamenti mentre interagiscono con altri agenti per raggiungere questo equilibrio attivo.

FURTHER lo fa utilizzando due moduli di apprendimento automatico. Il primo, un modulo di inferenza, consente a un agente di indovinare i comportamenti futuri di altri agenti e gli algoritmi di apprendimento che utilizzano, basandosi esclusivamente sulle loro azioni precedenti.

Queste informazioni vengono inserite nel modulo di apprendimento per rinforzo, che l’agente utilizza per adattare il proprio comportamento e influenzare altri agenti in modo da massimizzare la sua ricompensa.

“La sfida era pensare all’infinito. Abbiamo dovuto utilizzare molti strumenti matematici diversi per abilitarlo e fare alcune ipotesi per farlo funzionare nella pratica “, afferma Kim.

Vincere nel lungo periodo

Hanno testato il loro approccio rispetto ad altri framework di apprendimento per rinforzo multiagente in diversi scenari, tra cui una coppia di robot che combattono in stile sumo e una battaglia che vede due squadre di 25 agenti l’una contro l’altra. In entrambi i casi, gli agenti IA che hanno utilizzato FURTHER hanno vinto le partite più spesso.

Poiché il loro approccio è decentralizzato, il che significa che gli agenti imparano a vincere le partite in modo indipendente, è anche più scalabile rispetto ad altri metodi che richiedono un computer centrale per controllare gli agenti, spiega Kim.

I ricercatori hanno utilizzato i giochi per testare il loro approccio, ma FURTHER potrebbe essere utilizzato per affrontare qualsiasi tipo di problema multiagente. Ad esempio, potrebbe essere applicato da economisti che cercano di sviluppare una solida politica in situazioni in cui molti diritti interagenti hanno comportamenti e interessi che cambiano nel tempo.

L’economia è un’applicazione che Kim è particolarmente entusiasta di studiare. Vuole anche approfondire il concetto di equilibrio attivo e continuare a migliorare la struttura FURTHER.

Questa ricerca è finanziata, in parte, dal MIT-IBM Watson AI Lab.

###

Scritto da Adam Zewe, ufficio stampa del MIT

 

 

Di ihal