Recentemente, i ricercatori sono stati in grado di sviluppare alcuni agenti RL in grado di imparare i giochi da zero attraverso il puro auto-gioco senza alcun input umano.
Irecenti progressi nell’intelligenza artificiale (AI) sono stati un vantaggio per vari campi applicati. Sistemi di intelligenza artificiale oggi sono presenti ovunque intorno a noi, ad esempio i chatbot, che rispondono alle domande in base all’interazione effettuata, elaborando in cambio un risultato. Recentemente, una delle aree di ricerca più popolari nell’intelligenza artificiale è stata nel campo dei videogiochi. Impegnativa ma facile da formalizzare, questa piattaforma può essere utilizzata molto bene per sviluppare nuovi metodi di intelligenza artificiale e misurare il loro funzionamento. I videogiochi possono anche aiutare a dimostrare che le macchine oggi sono in grado di adottare comportamenti che si pensa richiedano intelligenza senza mettere a rischio vite umane o proprietà.
I sistemi di intelligenza artificiale per i videogiochi utilizzano un concetto noto come apprendimento di rinforzo (RL) , un metodo di addestramento all’apprendimento automatico, creando agenti abilitati all’algoritmo di autoapprendimento come co-giocatori o avversari, alcuni dei quali hanno persino superato i giocatori umani. Tuttavia, nonostante il loro comprovato record di elevate prestazioni individuali, gli agenti RL a volte possono diventare compagni di squadra frustranti se abbinati a giocatori umani, secondo uno studio condotto da ricercatori di intelligenza artificiale presso il MIT Lincoln Laboratory .
il punto cruciale
Lo studio condotto ha richiesto e coinvolto la cooperazione tra umani e agenti di intelligenza artificiale nel gioco di carte chiamato “Hanabi”, in cui ha cercato di osservare se l’intelligenza artificiale è in grado di dimostrare l’intelligenza di squadra, in particolare con i compagni di squadra umani. I risultati hanno mostrato che la maggior parte dei giocatori preferisce i tradizionali e prevedibili sistemi di intelligenza artificiale basati su regole rispetto ai complessi sistemi di RL, poiché i compagni di squadra basati su RL a volte mancavano di un livello appropriato di comportamento rapido e non riuscivano a generare determinate reazioni umane, come la fiducia, il carico di lavoro mentale e percezione del rischio.
La recente ricerca viene applicata principalmente a giochi per giocatore singolo come Atari Breakout o giochi conflittuali come StarCraft e Go, in cui l’intelligenza artificiale è contrapposta a un giocatore umano o a un altro robot di gioco.
Ma i ricercatori sono anche stati in grado di sviluppare alcuni agenti RL in grado di imparare i giochi da zero attraverso il puro auto-gioco senza alcun input umano. Imparando attraverso numerosi episodi del gameplay, un agente RL può gradualmente passare dall’intraprendere azioni casuali all’apprendimento di sequenze di azioni che possono aiutarlo a massimizzare il suo obiettivo.
Un famoso esempio è stato AlphaGo di DeepMind quando si è scontrato con il campione del mondo di Go Lee Sedol . Gli analisti hanno inizialmente pensato che la mossa fosse un errore perché andava contro le intuizioni degli esperti umani. Ma il risultato ha finito per ribaltare le sorti in favore del giocatore AI e sconfiggere Sedol.
Negli ultimi anni, diversi team di ricerca hanno esplorato lo sviluppo di robot AI in grado di riprodurre Hanabi. Alcuni di questi agenti utilizzavano l’intelligenza artificiale simbolica, in cui gli ingegneri fornivano in anticipo le regole del gioco, mentre altri utilizzavano l’apprendimento per rinforzo.
Dove manca l’intelligenza artificiale?
Una metrica chiave del teaming è la fiducia, che i giocatori definiscono come “l’atteggiamento che un agente aiuterà a raggiungere gli obiettivi di un individuo in una situazione caratterizzata da incertezza e vulnerabilità”.
Le potenziali difficoltà con la fiducia includono la calibrazione della fiducia, se la propria fiducia in un agente è commisurata alle sue capacità e la risoluzione della fiducia, che definisce se la gamma di situazioni in cui un essere umano si fida di un sistema è commisurata alla sua gamma di capacità.
Nell’esperimento di ricerca Hanibi, i giocatori sono stati esposti a SmartBot e Other-Play ma non sono stati informati su quale algoritmo funzionasse dietro le quinte. Secondo i sondaggi dei partecipanti, i giocatori Hanabi più esperti hanno avuto un’esperienza peggiore con l’ algoritmo Other-Play RL rispetto all’agente SmartBot basato su regole.
Non solo i punteggi non erano migliori con il compagno di squadra IA rispetto all’agente basato su regole, ma i giocatori umani odiavano costantemente giocare con il loro compagno di squadra IA. L’hanno trovato imprevedibile, inaffidabile e inaffidabile e si sono sentiti negativi anche quando la squadra ha segnato bene.
Qual è il prossimo?
Gli esseri umani che odiano i loro compagni di squadra di intelligenza artificiale potrebbero essere fonte di preoccupazione per i ricercatori che progettano tecnologie future per lavorare un giorno con gli umani su sfide reali, come difendersi dai missili o eseguire interventi chirurgici complessi. Questa dinamica, chiamata “teaming intelligence”, è la prossima frontiera nella ricerca sull’IA.