Google Research ha introdotto una nuova tecnica chiamata Parametro Efficient Reinforcement Learning (PERL), mirando a migliorare l’allineamento degli LLM con le preferenze umane in modo più efficiente e accessibile.
Gli studiosi propongono l’utilizzo di un metodo efficiente in termini di parametri denominato Low-Rank Adaptation (LoRA) per ottimizzare il modello di ricompensa e la politica di apprendimento per rinforzo durante il processo di apprendimento da feedback umano (RLHF).
In PERL, viene impiegato LoRA, un metodo che ottimizza un numero limitato di parametri, per rendere più efficiente il processo di formazione. Questo metodo è applicato sia al modello di ricompensa che alla politica di apprendimento per rinforzo (RL) dei modelli linguistici, collegando adattatori LoRA a parti specifiche.
Durante l’addestramento, solo questi adattatori vengono aggiornati, mantenendo invariata la parte principale del modello. Questo approccio riduce la quantità di dati necessari per l’addestramento e accelera il processo, consentendo di addestrare i modelli con minor potenza computazionale.
Il team ha condotto esperimenti dettagliati su sette set di dati, tra cui due nuovi set di dati denominati “Taskmaster Coffee” e “Taskmaster Ticketing”, pubblicati come parte di questo lavoro.
I risultati hanno dimostrato che PERL ha funzionato alla pari con l’RLHF convenzionale, ma si è allenato più rapidamente e ha utilizzato meno memoria. Questa scoperta è significativa poiché il costo computazionale e la complessità del processo RLHF hanno limitato la sua adozione come tecnica di allineamento per modelli linguistici di grandi dimensioni. Questo progresso potrebbe promuovere una più ampia adozione dell’RLHF come tecnica di allineamento, migliorando potenzialmente la qualità e la sicurezza dei modelli linguistici di grandi dimensioni.