DeepMind ha trovato un nuovo approccio per creare modelli di apprendimento per rinforzo più rapidi


Recentemente, i ricercatori di DeepMind e della McGill University hanno proposto nuovi approcci per accelerare la soluzione di complessi problemi di apprendimento per rinforzo . Hanno principalmente introdotto un approccio divide et impera all’apprendimento per rinforzo (RL), che è combinato con l’apprendimento profondo per aumentare le potenzialità degli agenti.

Da alcuni anni l’ apprendimento per rinforzo fornisce un quadro concettuale per affrontare diversi problemi fondamentali. Questo algoritmo è stato utilizzato in diverse applicazioni, come per modellare robot, simulare arti artificiali, sviluppare auto a guida autonoma, giocare a giochi come poker, Go e altro.

Inoltre, la recente combinazione di apprendimento di rinforzo con apprendimento profondo ha aggiunto diversi risultati impressionanti e si è rivelato un approccio promettente per affrontare importanti problemi decisionali sequenziali che sono attualmente intrattabili. Uno di questi problemi è la quantità di dati necessari o un agente RL per imparare a eseguire un’attività.

Dietro l’approccio
In questo progetto, i ricercatori hanno discusso del fatto che la gamma di problemi che gli agenti di RL possono affrontare potrebbe essere notevolmente estesa se dotati dei meccanismi appropriati per sfruttare le conoscenze precedenti. Il framework si basa fondamentalmente sulla premessa che un problema di RL può essere scomposto in una moltitudine di “compiti”.

I ricercatori hanno generalizzato due operazioni fondamentali in RL, miglioramento delle politiche e valutazione delle politiche , da uno a più operandi, cioè compiti e politiche, rispettivamente. Secondo loro, la generalizzazione di queste due operazioni fondamentali alla base di gran parte della RL, che è la valutazione e il miglioramento delle politiche, consente la soluzione di un compito per accelerare la soluzione di altri compiti.

La valutazione della politica generalizzata (GPE) è il calcolo della funzione di valore di una politica su un insieme di compiti. La versione generalizzata di queste due procedure è denominata congiuntamente “aggiornamenti delle politiche generalizzate”,

Gli aggiornamenti delle policy generalizzate consentono di riutilizzare la soluzione delle attività in due modi distinti. Loro sono-

Quando la funzione di ricompensa di un’attività può essere approssimata come una combinazione lineare di funzioni di ricompensa di altre attività, il problema dell’apprendimento per rinforzo può essere ridotto a una regressione lineare più semplice che è risolvibile solo con una frazione dei dati.
Quando il vincolo di linearità non è soddisfatto, l’agente può anche sfruttare la soluzione delle attività. In questo caso, usandoli per interagire e conoscere l’ambiente. Ciò può anche ridurre notevolmente la quantità di dati necessari per risolvere il problema.
I ricercatori hanno combinato queste due strategie per produrre un approccio divide et impera alla RL che può aiutare a ridimensionare gli agenti a problemi che sono attualmente intrattabili a causa di problemi come la mancanza di dati.

Hanno affermato: “Se la funzione di ricompensa di un’attività può essere ben approssimata come una combinazione lineare delle funzioni di ricompensa di attività precedentemente risolte, possiamo ridurre un problema di apprendimento per rinforzo a una regressione lineare più semplice”.

I ricercatori hanno inoltre aggiunto: “Quando questo non è il caso, l’agente può comunque sfruttare le soluzioni delle attività utilizzandole per interagire e conoscere l’ambiente. Entrambe le strategie riducono notevolmente la quantità di dati necessari per risolvere un problema di apprendimento per rinforzo “.


In questo articolo, i ricercatori hanno mostrato i possibili modi per implementare in modo efficiente GPE e GPI e hanno discusso in che modo la loro combinazione porta a una politica generalizzata il cui comportamento è modulato da un vettore di preferenze.

Inoltre, il vettore delle preferenze è considerato la soluzione di un problema di regressione lineare. Ciò riduce un’attività di apprendimento per rinforzo a un problema molto più semplice che può essere risolto utilizzando solo una frazione dei dati.
I ricercatori hanno proposto un approccio divide et impera in cui hanno generalizzato due operazioni fondamentali in RL, il miglioramento delle politiche e la valutazione delle politiche che possono essere utilizzate per accelerare la soluzione di un problema di apprendimento per rinforzo. Si afferma anche che la strategia migliora l’efficienza del campione se la mappatura dagli stati alle preferenze è più semplice da apprendere rispetto alla politica corrispondente.

Il codice sorgente utilizzato per generare tutti i dati in questa ricerca è disponibile in GitHub.

Di ihal