OpenAI ha posto grande enfasi su uno degli aspetti fondamentali per il successo di ChatGPT: il Reinforcement Learning from Human Feedback (RLHF). Questa tecnica è stata ampiamente adottata da molti, poiché mira a migliorare le prestazioni dei modelli di intelligenza artificiale nelle applicazioni reali, ma comporta anche alcune sfide significative.

Recentemente, un gruppo di ricercatori provenienti da istituti prestigiosi come Harvard, Stanford, MIT, UC Berkeley e altre università ha pubblicato un documento intitolato “Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback” in cui si discutono i problemi con l’approccio RLHF.

Uno dei principali ostacoli nell’RLHF è la difficoltà nel ottenere feedback di alta qualità da valutatori umani. Nonostante il valore che gli esseri umani possono apportare, essi possono essere influenzati da limitazioni e pregiudizi. I valutatori potrebbero avere difficoltà nel comprendere appieno il contesto o gli obiettivi del modello di intelligenza artificiale, il che potrebbe portare a un feedback non ottimale. In particolare, valutare le prestazioni dei modelli in conversazioni lunghe può essere particolarmente complesso.

Un’altra preoccupazione riguarda la qualità dei dati forniti dai valutatori umani. Essi potrebbero fornire feedback incoerenti o imprecisi a causa di vari fattori, come la limitata attenzione, i limiti di tempo e i pregiudizi cognitivi. Anche quando i valutatori hanno buone intenzioni, potrebbero sorgere disaccordi a causa di interpretazioni soggettive e prospettive diverse.

Inoltre, la forma di feedback utilizzata nell’RLHF può accentuare queste sfide. A seconda del metodo di valutazione scelto, i valutatori possono fornire giudizi binari, classifiche o confronti, ognuno con i propri vantaggi e svantaggi. La scelta della forma di feedback più adatta per un determinato compito di intelligenza artificiale può essere complessa e potrebbe portare a potenziali incongruenze nel processo di formazione del modello.

Un problema fondamentale nell’RLHF è rappresentare in modo accurato i valori umani con una funzione di ricompensa. Le preferenze umane possono variare a seconda del contesto, delle dinamiche e delle influenze sociali e culturali. Progettare una funzione di ricompensa che catturi appieno la complessità dei valori umani è una sfida notevole. Assumere erroneamente il processo decisionale umano o utilizzare una funzione di ricompensa che trascura la personalità e la dipendenza dal contesto potrebbe portare a modelli di intelligenza artificiale non allineati con le aspettative umane.

Inoltre, la diversità dei valutatori umani complica ulteriormente la modellazione della ricompensa. Dato che i valutatori possono provenire da background culturali e preferenze diversi, consolidare il loro feedback in un unico modello di ricompensa potrebbe ignorare importanti disaccordi e portare a modelli di intelligenza artificiale distorti che riflettono solo le opinioni della maggioranza. Questo potrebbe avere un impatto negativo sui gruppi sottorappresentati e perpetuare i pregiudizi esistenti.

Per affrontare queste sfide, i ricercatori devono esplorare tecniche per rappresentare le preferenze in modi più sfumati e contestualizzati. L’utilizzo di modelli di premi collettivi che tengano conto del feedback di più valutatori o modelli di premi personalizzati che soddisfino le preferenze individuali può aiutare a catturare la diversità dei valori umani.

Inoltre, è fondamentale affrontare trasparentemente i potenziali pregiudizi nel processo di raccolta dei dati e condurre valutazioni approfondite per identificare e mitigare i pregiudizi dannosi, in modo da sviluppare sistemi di intelligenza artificiale responsabili.

È importante riconoscere che l’RLHF potrebbe comportare un’eccessiva messa a punto del modello, nota come “tassa di allineamento dei modelli di intelligenza artificiale”. Quando si cerca di rendere il modello il più allineato e “politically correct” possibile attraverso diversi test e iterazioni con gli umani, si potrebbero perdere alcune delle prestazioni del modello. Pertanto, in alcuni casi, modelli non allineati che non passano attraverso RLHF potrebbero effettivamente ottenere prestazioni migliori.

In conclusione, sebbene l’RLHF sia una tecnica promettente per migliorare i modelli di intelligenza artificiale, presenta sfide significative legate alla qualità dei dati e alla rappresentazione delle preferenze umane. I ricercatori dovrebbero adottare un approccio olistico e bilanciato, esplorando varie tecniche e affrontando trasparentemente i potenziali pregiudizi, per sviluppare modelli di intelligenza artificiale più responsabili e affidabili.

Di Fantasy