Utilizzo di un mondo di gioco fantasy per aumentare le prestazioni dell’IA

Come imparare a programmare in Python giocando ai videogiochi
Di recente, Facebook AI Research (FAIR) ha costruito e distribuito un mondo di giochi di ruolo fantasy per aumentare le prestazioni dei modelli di intelligenza artificiale conversazionale come gli assistenti virtuali. I ricercatori hanno presentato un sistema completamente realizzato per migliorare un’attività di dialogo a dominio aperto utilizzando un gioco distribuito per l’apprendimento permanente.

Gli esseri umani imparano le lingue nel corso della loro vita dalle interazioni che hanno con altre persone. Tuttavia, la ricerca in sofisticati modelli di elaborazione del linguaggio naturale ( PNL ) viene eseguita utilizzando il set di dati fisso, senza alcuna capacità per il modello di interagire con gli esseri umani utilizzando il linguaggio durante il periodo di formazione.

Di solito, le ricerche sull’elaborazione del linguaggio naturale si concentrano su set di dati statici crowdsourcing e sul paradigma di apprendimento supervisionato dell’addestramento del modello. Questi set di dati crowdsourcing vengono raccolti pagando i lavoratori della folla per eseguire attività di interazione e annotazione.

Tuttavia, studi pertinenti hanno dimostrato che i dati di crowdsourcing hanno il problema della mancanza di naturalezza e rilevanza per i casi d’uso del mondo reale. Questo perché i budget per la ricerca per pagare i lavoratori della folla significano che c’è un limite alla raccolta dei dati.

Inoltre, poiché i lavoratori della folla sono motivati ​​dalla retribuzione e non da un interesse nei compiti effettivi stessi e la distribuzione dei dati potrebbe non corrispondere a quella desiderata. Allo stesso modo, ci sono anche altri problemi, come il paradigma del set di dati statici che non consente a un modello di apprendere dalle sue esperienze di utilizzo del linguaggio.

Dietro il sistema
I ricercatori hanno costruito e implementato un gioco di ruolo in cui i giocatori umani dialogano con gli agenti di apprendimento che si trovano in un mondo fantastico a dominio aperto. Hanno studiato la capacità di un modello di dialogo a dominio aperto1 di apprendere in modo iterativo dalle conversazioni con esseri umani intrinsecamente motivati.

Hanno affermato: “Al fine di coinvolgere gli umani su larga scala, costruiamo e distribuiamo un gioco (gratuito) con lo scopo in cui i giocatori umani interpretano i personaggi e conversano con altri personaggi (che sono i nostri modelli di apprendimento) situati nel mondo del gioco . “

Per massimizzare il coinvolgimento, i ricercatori hanno scelto un mondo di gioco fantasy. Il sistema esegue un’iterazione tra la raccolta dei dati delle interazioni del modello umano, la riqualificazione di modelli aggiornati sui dati appena raccolti e la loro ridistribuzione. Allo stesso tempo, fornisce una metrica naturale per valutare e confrontare i modelli online utilizzando il tasso di continuazione dei giocatori.

Il gioco
Il gioco costruito in questa ricerca è un interessante gioco di ruolo di dialogo, progettato sia per la formazione che per la valutazione di agenti di dialogo a dominio aperto. Il gioco principale prevede l’associazione di due agenti in un determinato ambiente, dove uno è un giocatore umano e l’altro è un agente di dialogo con un modello di apprendimento automatico sottostante .

Ai due giocatori vengono assegnati personaggi, con nomi dati e retroscena come i personaggi, la loro posizione attuale e la sua descrizione. L’obiettivo di ogni giocatore è interpretare i dialoghi dei propri personaggi nella situazione data. I dialoghi nel gioco sono in lingua inglese.


Ogni dialogo o minigioco consiste di 6 turni di dialogo per agente, ovvero 12 turni in totale. Alla fine del mini-gioco, il giocatore umano deve scegliere opzioni come spostarsi in una nuova posizione o terminare il gioco. Ci sono una varietà di minigiochi, che offrono diverse possibilità di gioco di ruolo e, quindi, rendono i dati di dialogo di natura più diversificata.

Vantaggi di questo sistema
Secondo i ricercatori, ci sono molti vantaggi nell’utilizzo del sistema, come ad esempio:

Questo sistema è conveniente rispetto ai modi tradizionali di raccogliere dati e addestrare i modelli di PNL .
I dati raccolti sono più efficaci nel migliorare i tassi di continuazione perché sono più distribuiti rispetto ai dati in crowdsourcing.
Con il miglioramento del modello, aumentano anche le tariffe continue. Ciò, di conseguenza, aumenterà la raccolta di dati.
Fornisce l’apprendimento del dialogo permanente in sistemi distribuiti con esseri umani intrinsecamente motivati, piuttosto che i lavoratori della folla.

Di conseguenza, i ricercatori hanno raccolto, riqualificato e ridistribuito con successo modelli che migliorano sia le metriche automatiche offline che i tassi di continuazione umana. Hanno affermato che il sistema è in grado di raccogliere dati a una velocità che è 1/5 del prezzo per espressione del crowdsourcing, dove il costo del metodo è il costo degli annunci pubblicitari che rendono i giocatori consapevoli del gioco.

Hanno dimostrato che addestrando i modelli sulle conversazioni che hanno con gli umani nel gioco, i modelli migliorano progressivamente, come misurato da metriche automatiche e punteggi di coinvolgimento online. Inoltre, si afferma che questo apprendimento è più efficiente dei dati in crowdsourcing quando applicato a conversazioni con utenti reali ed è molto più economico da raccogliere.

Di ihal