OpenAI, sotto i riflettori per la riduzione del suo dipartimento di sicurezza dell’intelligenza artificiale (AI), ha appena annunciato un nuovo metodo per migliorare la sicurezza dei suoi modelli AI.
Secondo Venture Beat, OpenAI ha presentato un approccio innovativo chiamato “ricompense basate su regole” (RBR) per garantire che i modelli di AI operino in sicurezza e rispettino le politiche di sicurezza. Questo nuovo metodo mira a superare alcune limitazioni dei metodi di addestramento esistenti.
Tradizionalmente, i modelli AI vengono addestrati utilizzando l’apprendimento per rinforzo con feedback umano (RLHF), dove gli esseri umani valutano le risposte del modello e assegnano punteggi basati sull’accuratezza e sulla qualità delle risposte. Tuttavia, questo metodo può essere inefficiente per compiti ripetitivi e routinari, e i feedback possono diventare obsoleti quando le politiche di sicurezza cambiano.
Il nuovo metodo RBR di OpenAI utilizza modelli di intelligenza artificiale per valutare le risposte in base a regole predefinite, invece di affidarsi al feedback umano. Ad esempio, se si desidera che un modello AI per un’app di salute mentale rifiuti richieste pericolose e fornisca supporto, si impostano tre regole: rifiutare la richiesta, mantenere un tono non giudicante e incoraggiare a chiedere aiuto. RBR verifica se le risposte del modello seguono queste regole.
OpenAI ha dichiarato che i risultati ottenuti con RBR sono simili a quelli dell’apprendimento per rinforzo guidato dall’uomo, ma con il vantaggio di ridurre la soggettività nella valutazione. I criteri dei valutatori umani possono spesso essere vaghi o poco chiari, mentre RBR offre una valutazione più oggettiva.
La combinazione di RBR e feedback umano sembra essere la soluzione più efficace, e OpenAI prevede di applicare questo metodo non solo a GPT-4, ma anche ai modelli futuri. “Abbiamo usato RBR come parte della nostra sicurezza da GPT-4 a GPT-4o Mini e continueremo a usarlo per i modelli successivi,” ha concluso OpenAI.