OpenAI ha recentemente pubblicato un nuovo documento di ricerca sui “Prover-Verifier Games” (PVG) per i modelli di linguaggio (LLM). I PVG mirano a migliorare la “leggibilità” delle uscite degli LLM, assicurando che producano testo comprensibile e logico anche per compiti complessi come la risoluzione di problemi matematici o la scrittura di codice.
In questo metodo, OpenAI ha addestrato modelli di linguaggio avanzati per generare testo che può essere facilmente verificato da modelli più semplici. È stato osservato che questo approccio migliora la comprensibilità del testo per i valutatori umani, suggerendo un miglioramento della leggibilità.
“Queste tecniche sembrano promettenti per addestrare modelli sovrumani a spiegare le loro azioni in modo che gli umani possano capirle meglio e non essere ingannati”, ha affermato Jan Leike, coautore e ex ricercatore di OpenAI. Leike spera che questo metodo venga testato su compiti più difficili e con modelli più avanzati.
L’articolo si basa sul concetto iniziale di PVG rilasciato nel 2021, che è un framework teorico di gioco progettato per incentivare gli agenti di apprendimento a risolvere problemi decisionali in modo verificato. In questo sistema, un “prover” genera una soluzione che un “verifier” verifica per la precisione. OpenAI ha addestrato piccoli verifier per giudicare l’accuratezza delle soluzioni, incoraggiando i prover a produrre soluzioni corrette e testando i verifier con soluzioni errate per sfidarli.
Durante l’allenamento, è stato notato che la precisione del prover e la robustezza del verifier agli attacchi avversari aumentavano. Questo sistema allude a una forma di apprendimento di rinforzo, sostenuta dal co-fondatore ed ex capo scienziato di OpenAI, Ilya Sutskever.
OpenAI aveva già lavorato ampiamente sui sistemi di apprendimento di rinforzo. Ad esempio, nel 2018, OpenAI Five ha sconfitto squadre umane a Dota 2, giocando 180 anni di partite contro se stesso per addestrarsi.
Tuttavia, il sistema PVG ha dei limiti. Funziona bene su problemi matematici che hanno risposte oggettive, ma potrebbe avere difficoltà con argomenti più soggettivi, come valutare la bellezza di una poesia.
Un utente su HackerNews ha suggerito di misurare l’accuratezza dei modelli addestrati con i PVG su compiti non correlati per vedere se le lezioni apprese migliorano le prestazioni in altre aree, come la logica o il ragionamento.
Il sistema PVG mira a migliorare l’accuratezza dei risultati generati dagli LLM e potrebbe rappresentare un passo avanti verso la superintelligenza. La metodologia riduce la dipendenza dalle dimostrazioni umane o dai giudizi di leggibilità, essenziale per l’allineamento futuro della superintelligenza.
Anche se lo studio si è concentrato su un singolo set di dati e richiede etichette di verità di base, queste metodologie potrebbero rivelarsi fondamentali nello sviluppo dei sistemi di intelligenza artificiale, garantendo la correttezza dei risultati e facilitando la verifica trasparente, migliorando la fiducia e la sicurezza nelle applicazioni del mondo reale.