DeepMind presenta un nuovo benchmark per l’apprendimento tramite meta rinforzo
Come il deep learning può essere utilizzato per la corrispondenza semantica del testo
Recentemente, un team di ricercatori del DeepMind e dell’University College di Londra ha rilasciato un benchmark di principio per la ricerca sull’apprendimento meta-rinforzo (meta-RL), noto come Alchemy . Il parametro di riferimento è una combinazione di ricchezza strutturale e trasparenza strutturale.
Come approccio per aumentare la flessibilità e l’efficienza del campione dell’apprendimento per rinforzo , l’ apprendimento meta-rinforzo (meta RL) ha preso slancio negli ultimi anni. Meta-RL è definito come qualsiasi processo che produce un apprendimento più veloce, in media, con ogni nuova estrazione dalla distribuzione delle attività.
Secondo i ricercatori, a differenza dell’apprendimento di rinforzo profondo che richiede un’attività, il meta-RL necessita di una distribuzione delle attività: un ampio insieme di attività con una struttura condivisa. Tuttavia, i ricercatori spesso affrontano sfide in quest’area come: una scarsità di compiti di riferimento adeguati; mal definito per supportare l’analisi di principio, ecc. I ricercatori hanno escogitato il nuovo benchmark meta-RL per affrontare questi ostacoli.
L’ ambiente DeepMind Alchemy è un benchmark di apprendimento meta-rinforzo che presenta attività campionate da una distribuzione di attività con una struttura sottostante profonda. Alchemy è un videogioco 3D con prospettiva in prima persona implementato nel motore di gioco Unity. Secondo i ricercatori, il benchmark è stato creato per testare la capacità degli agenti di ragionare e pianificare tramite inferenza di stato latente, nonché utili esplorazioni e sperimentazioni.