Lo studio del MIT rileva che gli esseri umani lottano quando collaborano con agenti RL
L’intelligenza artificiale ha dimostrato che complicati giochi da tavolo e videogiochi non sono più dominio esclusivo della mente umana. Dagli scacchi a Go to StarCraft, i sistemi di intelligenza artificiale che utilizzano algoritmi di apprendimento per rinforzo hanno superato i campioni del mondo umano negli ultimi anni.
Ma nonostante le elevate prestazioni individuali degli agenti RL, possono diventare frustranti compagni di squadra se abbinati a giocatori umani, secondo uno studio condotto da ricercatori di intelligenza artificiale presso il MIT Lincoln Laboratory. Lo studio, che ha coinvolto la cooperazione tra umani e agenti di intelligenza artificiale nel gioco di carte Hanabi , mostra che i giocatori preferiscono i classici e prevedibili sistemi di intelligenza artificiale basati su regole rispetto ai complessi sistemi di RL.
I risultati, presentati in un articolo pubblicato su arXiv, evidenziano alcune delle sfide inesplorate dell’applicazione dell’apprendimento per rinforzo a situazioni del mondo reale e possono avere importanti implicazioni per il futuro sviluppo di sistemi di intelligenza artificiale destinati a cooperare con gli esseri umani.
Trovare il divario nell’apprendimento per rinforzo
L’apprendimento per rinforzo profondo, l’algoritmo utilizzato dai robot di gioco all’avanguardia, inizia fornendo a un agente una serie di possibili azioni nel gioco, un meccanismo per ricevere feedback dall’ambiente e un obiettivo da perseguire. Quindi, attraverso numerosi episodi di gioco, l’agente RL passa gradualmente dall’intraprendere azioni casuali all’apprendimento di sequenze di azioni che possono aiutarlo a massimizzare il suo obiettivo.
Le prime ricerche sull’apprendimento per rinforzo profondo si basavano sull’addestramento preliminare dell’agente sui dati di gioco dei giocatori umani. Più di recente, i ricercatori sono stati in grado di sviluppare agenti RL in grado di imparare i giochi da zero attraverso il puro auto-gioco senza l’input umano.
Nel loro studio, i ricercatori del MIT Lincoln Laboratory erano interessati a scoprire se un programma di apprendimento per rinforzo che superasse gli umani potesse diventare un collaboratore affidabile per gli umani.
“A un livello molto alto, questo lavoro è stato ispirato dalla domanda: quali lacune tecnologiche esistono che impediscono di applicare l’apprendimento per rinforzo (RL) ai problemi del mondo reale, non solo ai videogiochi?” Il dottor Ross Allen, ricercatore di intelligenza artificiale presso il Lincoln Laboratory e coautore dell’articolo, ha dichiarato a TechTalks. “Mentre esistono molte di queste lacune tecnologiche (ad esempio, il mondo reale è caratterizzato da incertezza/osservabilità parziale, scarsità di dati, obiettivi ambigui/sfumati, tempistiche disparate del processo decisionale, ecc.), abbiamo identificato la necessità di collaborare con gli esseri umani come un gap tecnologico chiave per applicare RL nel mondo reale.
Giochi conflittuali vs. cooperativi
La ricerca recente applica principalmente l’apprendimento per rinforzo ai giochi per giocatore singolo (ad es. Atari Breakout) o ai giochi conflittuali (ad es. StarCraft, Go), in cui l’IA è contrapposta a un giocatore umano o a un altro robot di gioco.
“Pensiamo che l’apprendimento per rinforzo sia adatto per affrontare i problemi sulla collaborazione uomo-IA per ragioni simili per cui RL ha avuto successo nella competizione uomo-IA”, ha detto Allen. “Nei domini competitivi RL ha avuto successo perché ha evitato i pregiudizi e le ipotesi su come un gioco dovrebbe essere giocato, invece di imparare tutto da zero”.
Infatti, in alcuni casi, i sistemi di rinforzo sono riusciti ad hackerare i giochi e trovare trucchi che hanno sconcertato anche i giocatori umani più talentuosi ed esperti. Un esempio famoso è stata una mossa fatta da AlphaGo di DeepMind nel suo match contro il campione del mondo di Go Lee Sedol . Gli analisti hanno inizialmente pensato che la mossa fosse un errore perché andava contro le intuizioni degli esperti umani. Ma la stessa mossa ha finito per ribaltare la situazione a favore del giocatore AI e sconfiggere Sedol. Allen pensa che lo stesso tipo di ingegnosità possa entrare in gioco quando RL si allea con gli umani.
“Pensiamo che RL possa essere sfruttato per far progredire lo stato dell’arte della collaborazione uomo-IA evitando i presupposti e i pregiudizi preconcetti che caratterizzano i sistemi esperti basati su regole”, ha affermato Allen.
Per i loro esperimenti, i ricercatori hanno scelto Hanabi, un gioco di carte in cui da due a cinque giocatori devono cooperare per giocare le proprie carte in un ordine specifico. Hanabi è particolarmente interessante perché, sebbene semplice, è anche un gioco di piena cooperazione e informazioni limitate. I giocatori devono tenere le carte all’indietro e non possono vedere i loro volti. Di conseguenza, ogni giocatore può vedere le facce delle carte dei propri compagni di squadra. I giocatori possono utilizzare un numero limitato di gettoni per fornirsi reciprocamente indizi sulle carte che hanno in mano. I giocatori devono utilizzare le informazioni che vedono sulle mani dei loro compagni di squadra e i suggerimenti limitati che conoscono sulla propria mano per sviluppare una strategia vincente.
“Nel perseguimento dei problemi del mondo reale, dobbiamo iniziare in modo semplice”, ha detto Allen. “Quindi ci concentriamo sul gioco collaborativo di riferimento di Hanabi.”
Negli ultimi anni, diversi team di ricerca hanno esplorato lo sviluppo di robot AI in grado di riprodurre Hanabi. Alcuni di questi agenti utilizzano l’intelligenza artificiale simbolica, in cui gli ingegneri forniscono in anticipo le regole del gioco, mentre altri utilizzano l’apprendimento per rinforzo.
I sistemi di intelligenza artificiale sono valutati in base alle loro prestazioni in self-play (dove l’agente gioca con una copia di se stesso), cross-play (dove l’agente è in coppia con altri tipi di agenti) e human-play (l’agente coopera con un essere umano).
“Il gioco incrociato con gli umani, chiamato gioco umano, è di particolare importanza in quanto misura il teaming uomo-macchina ed è la base per gli esperimenti nel nostro articolo”, scrivono i ricercatori.
Per testare l’efficienza della cooperazione uomo-IA, i ricercatori hanno utilizzato SmartBot, il sistema di intelligenza artificiale basato su regole più performante nel gioco autonomo, e Other-Play, un bot Hanabi che si è classificato al primo posto nel cross-play e nel gioco umano tra RL algoritmi.
“Questo lavoro estende direttamente il lavoro precedente su RL per la formazione degli agenti Hanabi. In particolare studiamo l’agente RL ‘Other Play’ dal laboratorio di Jakob Foerster”, ha detto Allen. “Questo agente è stato formato in modo tale da renderlo particolarmente adatto a collaborare con altri agenti che non aveva incontrato durante la formazione. Aveva prodotto prestazioni all’avanguardia in Hanabi quando era in coppia con altre IA che non aveva incontrato durante l’allenamento”.
Human-AI cooperation
Negli esperimenti, i partecipanti umani hanno giocato a diversi giochi di Hanabi con un compagno di squadra di intelligenza artificiale. I giocatori sono stati esposti sia a SmartBot che a Other-Play, ma non gli è stato detto quale algoritmo funzionasse dietro le quinte.
I ricercatori hanno valutato il livello di cooperazione uomo-IA sulla base di metriche oggettive e soggettive. Le metriche oggettive includono punteggi, tassi di errore, ecc. Le metriche soggettive includono l’esperienza dei giocatori umani, incluso il livello di fiducia e comfort che provano nel loro compagno di squadra AI e la loro capacità di comprendere le motivazioni dell’IA e prevederne il comportamento.
Non c’era alcuna differenza significativa nelle prestazioni oggettive dei due agenti di intelligenza artificiale. Ma i ricercatori si aspettavano che i giocatori umani avessero un’esperienza soggettiva più positiva con Other-Play, poiché era stato addestrato a cooperare con agenti diversi da se stesso.
“I nostri risultati sono stati sorprendenti per noi a causa della forza con cui i partecipanti umani hanno reagito alla collaborazione con l’agente di Other Play. In breve, lo odiavano”, ha detto Allen.
Secondo i sondaggi dei partecipanti, i giocatori Hanabi più esperti hanno avuto un’esperienza peggiore con l’algoritmo RL Other-Play rispetto all’agente SmartBot basato su regole. Uno dei punti chiave per il successo in Hanabi è l’abilità di fornire sottili suggerimenti agli altri giocatori. Ad esempio, supponiamo che la carta “uno di quadrati” sia posata sul tavolo e che il tuo compagno di squadra tenga in mano il due di quadrati. Indicando la carta e dicendo “questo è un due” o “questo è un quadrato”, stai implicitamente dicendo al tuo compagno di squadra di giocare quella carta senza dargli tutte le informazioni sulla carta. Un giocatore esperto capirebbe immediatamente il suggerimento. Ma fornire lo stesso tipo di informazioni al compagno di squadra AI si rivela molto più difficile.
“Gli ho fornito informazioni e lui le ha semplicemente buttate via”, ha detto un partecipante dopo essere stato frustrato con l’agente di Other-Play, secondo il giornale. Un altro ha detto: “A questo punto, non so quale sia il punto”.
È interessante notare che Other-Play è progettato per evitare la creazione di convenzioni “segrete” che gli agenti RL sviluppano quando passano solo attraverso l’auto-gioco. Ciò rende Other-Play un compagno di squadra ottimale per gli algoritmi di intelligenza artificiale che non facevano parte del suo regime di allenamento. Ma ha ancora ipotesi sui tipi di compagni di squadra che incontrerà, osservano i ricercatori.
“In particolare, [Other-Play] presuppone che anche i compagni di squadra siano ottimizzati per la coordinazione a colpo zero . Al contrario, i giocatori di Hanabi umani in genere non imparano con questa ipotesi. L’impostazione della convention pre-partita e le revisioni post-partita sono pratiche comuni per i giocatori Hanabi umani, rendendo l’apprendimento umano più simile alla coordinazione a pochi colpi”, osservano i ricercatori nel loro articolo.
Implicazioni per i futuri sistemi di intelligenza artificiale
“I nostri risultati attuali dimostrano che le sole prestazioni oggettive del compito di un’IA (ciò che nel documento chiamiamo ‘auto-gioco’ e ‘cross-play’) potrebbero non essere correlate alla fiducia e alle preferenze umane quando si collabora con quell’IA”, Allen disse. “Ciò solleva la questione: che cosa metriche oggettive fare correlato alle preferenze soggettive umani? Data l’enorme quantità di dati necessari per addestrare gli agenti basati su RL, non è davvero sostenibile addestrarsi con gli umani nel ciclo. Pertanto, se vogliamo addestrare agenti di intelligenza artificiale che siano accettati e apprezzati dai collaboratori umani, probabilmente abbiamo bisogno di trovare funzioni oggettive addestrabili che possano fungere da surrogati o fortemente correlate alle preferenze umane”.
Nel frattempo, Allen mette in guardia dall’estrapolare i risultati dell’esperimento Hanabi ad altri ambienti, giochi o domini che non sono stati in grado di testare. Il documento riconosce anche alcuni dei limiti negli esperimenti, che i ricercatori stanno lavorando per affrontare in futuro. Ad esempio, il pool di soggetti era piccolo (29 partecipanti) e sbilanciato verso persone esperte in Hanabi, il che implica che avevano aspettative comportamentali predefinite dal compagno di squadra di intelligenza artificiale e avevano maggiori probabilità di avere un’esperienza negativa con il comportamento eccentrico del RL agente .
Tuttavia, i risultati possono avere importanti implicazioni per il futuro della ricerca sull’apprendimento per rinforzo.
“Se gli agenti di RL all’avanguardia non possono nemmeno essere un collaboratore accettabile in un gioco così limitato e ristretto come Hanabi; dovremmo davvero aspettarci che le stesse tecniche di RL “funzionino” quando vengono applicate a giochi più complicati, sfumati e consequenziali e situazioni del mondo reale?” ha detto Allen. “C’è molto clamore sull’apprendimento per rinforzo in ambito tecnologico e accademico; e giustamente. Tuttavia, penso che i nostri risultati dimostrino che le notevoli prestazioni dei sistemi RL non dovrebbero essere date per scontate in tutte le possibili applicazioni”.
Ad esempio, potrebbe essere facile presumere che la RL possa essere utilizzata per addestrare agenti robotici in grado di collaborare strettamente con gli esseri umani. Ma i risultati del lavoro svolto al MIT Lincoln Laboratory suggeriscono il contrario, almeno dato l’attuale stato dell’arte, dice Allen.
“I nostri risultati sembrano implicare che è necessario molto più lavoro teorico e applicato prima che gli agenti basati sull’apprendimento possano essere collaboratori efficaci in situazioni complicate come le interazioni uomo-robot”