Con i progressi recenti nei modelli linguistici di grandi dimensioni, è evidente perché questi framework eccellano come pianificatori semantici per decisioni sequenziali di alto livello. Tuttavia, sfruttare appieno il loro potenziale per l’apprendimento di compiti di manipolazione di basso livello rimane una sfida. Nonostante la loro efficienza, i modelli linguistici attuali richiedono conoscenze specifiche per imparare abilità semplici o generare suggerimenti testuali, creando un divario tra le loro prestazioni e la destrezza umana.
Per colmare questo divario, sviluppatori di Nvidia, CalTech, UPenn e altri hanno introdotto EUREKA, un algoritmo basato su LLM per la progettazione di livello umano. EUREKA sfrutta funzioni dei LLM, come la scrittura di codice, miglioramento contestuale e generazione di contenuti zero-shot, per ottimizzare i codici di ricompensa in modo senza precedenti. Combinati con l’apprendimento per rinforzo, questi codici permettono di apprendere abilità complesse o eseguire compiti di manipolazione.
In questo articolo, esaminiamo il framework EUREKA dal punto di vista dello sviluppo, analizzando la sua struttura, funzionamento e i risultati ottenuti nella generazione di funzioni di ricompensa, ritenute superiori a quelle umane. Esploreremo anche come EUREKA inauguri un nuovo approccio all’RLHF (Reinforcement Learning using Human Feedback) facilitando l’apprendimento in contesto senza gradienti. Approfondiamo EUREKA.
I framework LLM avanzati come GPT-3 e GPT-4 hanno mostrato risultati eccezionali come pianificatori semantici per attività decisionali sequenziali, ma la loro applicazione in compiti di manipolazione di basso livello è ancora in esplorazione. Gli sviluppatori hanno notato che l’apprendimento per rinforzo può essere efficace in compiti che richiedono destrezza, a condizione che le funzioni di ricompensa siano ben progettate. Tuttavia, progettare queste funzioni è complesso e può portare a comportamenti indesiderati.
EUREKA mira a risolvere queste sfide, fornendo prestazioni di livello umano nella progettazione di funzioni di ricompensa, risolvendo efficacemente compiti di manipolazione senza l’ingegneria manuale della ricompensa, e generando funzioni di ricompensa più allineate all’umanità. Il framework implementa scelte chiave di design algoritmico: ricerca evolutiva, ambiente come contesto e riflessione sulla ricompensa. EUREKA utilizza il codice sorgente dell’ambiente come contesto per generare ricompense eseguibili, migliora la qualità delle ricompense attraverso la ricerca evolutiva, e riflette sulla qualità delle ricompense utilizzando feedback automatizzati.
L’architettura del modello EUREKA affronta il Reward Design Problem (RDP), una tupla contenente un modello mondiale, spazi di ricompensa, funzioni di transizione e spazi di azione. Il framework ottimizza le ricompense generando una policy che evolve in un Markov Decision Process (MDP). EUREKA specifica ogni componente del RDP usando codice, e mira a generare codici di ricompensa che massimizzino il punteggio di fitness.
Il quadro si basa su tre componenti algoritmiche: ricerca evolutiva, ambiente come contesto e riflessione sulla ricompensa. La ricerca evolutiva propone e perfeziona candidati alla ricompensa, l’ambiente come contesto utilizza il codice sorgente per generare ricompense eseguibili, e la riflessione sulla ricompensa valuta la qualità delle ricompense generate.
La modellazione della ricompensa in EUREKA è essenziale poiché l’efficacia di una funzione di ricompensa dipende dall’algoritmo di apprendimento per rinforzo utilizzato. Il framework permette modifiche mirate e automatizzate delle ricompense, sincronizzandole meglio con l’algoritmo di Reinforcement Learning.
EUREKA comprende due componenti principali: apprendimento delle politiche e metriche di valutazione della ricompensa. Le funzioni di ricompensa sono ottimizzate con lo stesso algoritmo di apprendimento per rinforzo usato per le ricompense progettate dall’uomo, e il framework riporta punteggi normalizzati umani per confrontare le sue prestazioni con quelle delle ricompense umane.
Infine, EUREKA si è dimostrato superiore alle ricompense umane in diversi parametri, migliorando costantemente nel tempo e generando nuove ricompense. Ha anche mostrato la capacità di migliorare le ricompense umane e di modificare i premi incorporando il feedback umano.
In conclusione, EUREKA rappresenta un passo avanti nell’utilizzo dei framework LLM per la progettazione di funzioni di ricompensa, dimostrando potenziale per un approccio scalabile e generale alla progettazione di ricompense, applicabile a vari problemi di ricerca a risposta aperta.