DeepMind Alchemy

Diihal

Feb 18, 2021

DeepMind presenta un nuovo benchmark per l’apprendimento tramite meta rinforzo

Come il deep learning può essere utilizzato per la corrispondenza semantica del testo
Recentemente, un team di ricercatori del DeepMind e dell’University College di Londra ha rilasciato un benchmark di principio per la ricerca sull’apprendimento meta-rinforzo (meta-RL), noto come Alchemy . Il parametro di riferimento è una combinazione di ricchezza strutturale e trasparenza strutturale.

Come approccio per aumentare la flessibilità e l’efficienza del campione dell’apprendimento per rinforzo , l’ apprendimento meta-rinforzo (meta RL) ha preso slancio negli ultimi anni. Meta-RL è definito come qualsiasi processo che produce un apprendimento più veloce, in media, con ogni nuova estrazione dalla distribuzione delle attività.

Secondo i ricercatori, a differenza dell’apprendimento di rinforzo profondo che richiede un’attività, il meta-RL necessita di una distribuzione delle attività: un ampio insieme di attività con una struttura condivisa. Tuttavia, i ricercatori spesso affrontano sfide in quest’area come: una scarsità di compiti di riferimento adeguati; mal definito per supportare l’analisi di principio, ecc. I ricercatori hanno escogitato il nuovo benchmark meta-RL per affrontare questi ostacoli.

L’ ambiente DeepMind Alchemy è un benchmark di apprendimento meta-rinforzo che presenta attività campionate da una distribuzione di attività con una struttura sottostante profonda. Alchemy è un videogioco 3D con prospettiva in prima persona implementato nel motore di gioco Unity. Secondo i ricercatori, il benchmark è stato creato per testare la capacità degli agenti di ragionare e pianificare tramite inferenza di stato latente, nonché utili esplorazioni e sperimentazioni.

DeepMind Alchemy

Diihal

Di ihal

Articoli correlati

De’Longhi applica computer vision e deep learning al controllo delle macine e riduce gli scarti del 30%

Ricercatori progettano nanogabbie proteiche con AI replicando i meccanismi di autoassemblaggio dei virus

Pompei: la ricostruzione digitale con intelligenza artificiale di una vittima dell’eruzione del 79 d.C. basata sui dati archeologici di Porta Stabia

Ultimi Post

SafeDrive porta l’intelligenza artificiale nel controllo di smartphone, cinture e documenti dei veicoli

Gemini Nano 4 debutta sui nuovi pieghevoli Samsung con l’AI eseguita direttamente sul dispositivo

OpenAI avrebbe scoperto dopo una settimana che un proprio agente AI aveva violato Hugging Face

Claude Record a Skill trasforma una registrazione dello schermo in una procedura automatizzabile