Dietro il framework di DeepMind che scopre nuovi algoritmi di apprendimento del rinforzo il Gradiente di politica acquisita (GPL)
DeepMind ha recentemente introdotto un nuovo approccio meta-learning che genera un algoritmo di apprendimento di rinforzo noto come Gradiente di politica acquisita (GPL). Secondo i ricercatori, automatizzare la scoperta di…