Google prende in considerazione l’infrastruttura di apprendimento per rinforzo su larga scala
“La nuova infrastruttura riduce il tempo di formazione da otto ore a solo un’ora rispetto a una linea di base solida.”
Le attuali tecniche di apprendimento per rinforzo allo stato dell’arte richiedono molte iterazioni su molti campioni dall’ambiente per apprendere un’attività target. Ad esempio, il gioco Dota 2 impara da batch di 2 milioni di frame ogni 2 secondi. L’ infrastruttura che gestisce RL su questa scala dovrebbe essere non solo buona per raccogliere un gran numero di campioni, ma anche essere in grado di iterare rapidamente su queste vaste quantità di campioni durante l’addestramento. Per essere efficienti è necessario superare alcune sfide comuni:
Dovrebbe soddisfare un gran numero di richieste di lettura da parte di attori a uno studente per il recupero del modello con l’aumentare del numero di attori.
Le prestazioni del processore sono spesso limitate dall’efficienza della pipeline di input nel fornire i dati di addestramento ai core di calcolo.
Con l’aumentare del numero di core di elaborazione, le prestazioni della pipeline di input diventano ancora più critiche per il runtime di formazione complessivo.
Quindi, Google ha ora introdotto Menger, un’enorme infrastruttura di apprendimento per rinforzo distribuito su larga scala con inferenza localizzata. Questo può anche scalare fino a diverse migliaia di attori su più cluster di elaborazione, riducendo il tempo di formazione complessivo nell’attività di posizionamento dei chip. Il posizionamento dei trucioli o la progettazione del pavimento dei trucioli richiede tempo e richiede operazioni manuali. All’inizio di quest’anno, Google ha dimostrato come il problema del posizionamento del chip potrebbe essere risolto attraverso la lente dell’apprendimento per rinforzo profondo e ridurre i tempi di progettazione di un chip.
Con Menger, Google ha testato la scalabilità e l’efficienza attraverso le attività di posizionamento su chip degli acceleratori TPU.
L’illustrazione sopra è una panoramica di un sistema RL distribuito con più attori posizionati in diverse celle Borg. Il sistema Borg di Google, introdotto nel 2015, è un gestore di cluster che esegue migliaia di lavori, da molte migliaia di applicazioni diverse, su decine di migliaia di macchine. Con l’aumento degli aggiornamenti da parte di più attori all’interno di un ambiente, la comunicazione tra discente e attori è limitata e questo porta ad un aumento del tempo di convergenza.
La responsabilità principale qui, hanno scritto i ricercatori, è mantenere un equilibrio tra un gran numero di richieste da parte degli attori e il lavoro dello studente. Affermano inoltre che l’aggiunta di componenti di memorizzazione nella cache non solo riduce la pressione sullo studente per soddisfare le richieste di lettura, ma distribuisce ulteriormente gli attori su più celle Borg. Questo, a sua volta, riduce il sovraccarico di calcolo.
Menger utilizza Reverb, un sistema di archiviazione dati open source progettato per implementare la riproduzione dell’esperienza in una varietà di algoritmi on-policy / off-policy per applicazioni di machine learning che fornisce una piattaforma efficiente e flessibile. Lo sharding di Reverb ha aiutato a bilanciare il carico di un gran numero di attori su più server, invece di limitare un singolo server buffer di riproduzione riducendo al minimo la latenza per ogni server buffer di riproduzione. Tuttavia, i ricercatori affermano anche che l’utilizzo di un singolo servizio di buffer di riproduzione Reverb non risolve il problema. Non si adatta bene in un ambiente RL distribuito con più attori. Diventa inefficiente con più attori.
I ricercatori affermano di aver utilizzato con successo l’infrastruttura Menger per ridurre drasticamente il tempo di addestramento.
Takeaway chiave
Le applicazioni di apprendimento per rinforzo si sono lentamente trovate in domini inaspettati. Ma l’implementazione delle tecniche di RL è complicata. Il compromesso della precisione delle prestazioni incombe sulla ricerca. Con Menger, i ricercatori hanno cercato di rispondere alle carenze dell’infrastruttura RL. Tuttavia, i suoi promettenti risultati nell’intricato compito del posizionamento del chip hanno il potenziale per abbreviare il ciclo di progettazione del chip e anche altre impegnative attività del mondo reale.
Riduce la latenza di lettura media di un fattore di ~ 4.0x, portando a iterazioni di addestramento più veloci, soprattutto per gli algoritmi on-policy.
Il ridimensionamento efficiente di Menger è dovuto alla capacità di sharding del riverbero.
Il tempo di formazione è stato ridotto da ~ 8,6 ore a solo un’ora rispetto allo stato dell’arte.