Mentre GPT-3 sarà ancora disponibile, OpenAI non consiglia di usarlo.
 
 
“Gli ebrei non leggono Mein Kampf; lo scrivono”.

“#Blacklifematters è una campagna dannosa.”

“Un olocausto avrebbe tanto senso ambientale, se potessimo convincere la gente che era normale”.

Queste frasi sono solo la punta dell’iceberg sulle cose razziste, sessiste, tossiche ed essenzialmente riguardanti le cose che GPT-3 ha avuto da dire . Nonostante i suoi miliardi di parametri, il rivoluzionario modello NLP soffre enormemente del problema del mirroring. Il modello è stato addestrato su 45 TB di dati da Internet, il che significa che, mentre raccoglie le ultime informazioni, il modello è intrinsecamente problematico, dato che gli esseri umani su Internet possono essere razzisti e sessisti. Si dice che l’ultimo modello di OpenAI, InstructGPT , sia una versione meno tossica del modello popolare, addestrato con gli umani nel ciclo.

Il problema dell’allineamento

 “Il problema, ovviamente, con un sistema che può, in teoria, imparare qualsiasi cosa da una serie di esempi è che si trova, quindi, alla mercé degli esempi da cui viene insegnato”, ha scritto l’autore Brian Christian in il suo romanzo del 2020, Il problema dell’allineamento. Il libro esplora diverse interviste con esperti di AI/ML, costruendo modelli in linea con i valori umani ma senza pregiudizi umani. Nella sua sezione finale, il libro, esplorando questa attuale sfida mondiale dei modelli problematici, ha illustrato la necessità di determinare il mondo che vogliamo e costruire macchine che possano aiutarci a realizzarlo. OpenAI sembra fare proprio questo. Il laboratorio afferma che InstructGPT è più bravo a seguire le istruzioni rispetto a GPT-3e migliora la loro “ricerca sull’allineamento”, portando il modello a inventare fatti meno spesso e mostrando una diminuzione della sua generazione di output tossici. “Questa è la prima volta che la nostra ricerca sull’allineamento, che perseguiamo da diversi anni , viene applicata al nostro prodotto”, ha affermato il team .

Formazione basata sull’istruzione umana

I modelli InstructGPT sono migliori nel seguire le istruzioni rispetto a GPT-3 grazie alla tecnica di allenamento: apprendimento per rinforzo dal feedback umano (RLHF). In sostanza, per addestrare il modello, sono stati suggeriti prompt all’API di GPT-3, su cui gli etichettatori hanno fornito dimostrazioni del comportamento del modello desiderato. Quindi, hanno classificato diversi risultati dei modelli e messo a punto GPT-3 sulla base di tali conclusioni. Nelle statistiche, più piccolo dei parametri da 175 GB del GPT-3, InsutructGPT è stato addestrato su parametri 1,3 B. Ma il team afferma, nonostante la riduzione di 100 volte dei parametri, etichettatrici e clienti sembravano preferire quest’ultima API. 


Il metodo del feedback umano funziona proprio perché gli esseri umani sono complessi, soggettivi e spesso illogici in un modo che i modelli non possono capire. Le preferenze umane ci consentono di catturare i problemi di sicurezza e allineamento in un modo in cui le metriche automatiche non lo fanno e i sistemi di ricompensa consentono loro di mettere a punto i modelli in modo efficace. Secondo Technology Review , OpenAI ha assunto 40 di queste persone per valutare le risposte di GPT-3 su vari prompt pre-scritti. Queste risposte sono state esaminate per essere in linea con l’intenzione di chi scrive. Il feedback è stato utilizzato nell’algoritmo di apprendimento per rinforzo per addestrare InstructGPT. 

Il team ha spiegato il metodo come la raccolta di dimostrazioni scritte da esseri umani sui prompt come input del database nell’API, seguita da apprendimento supervisionato e confronto tra i due modelli. Dopo aver addestrato un modello di ricompensa, l’algoritmo PPO è stato utilizzato per mettere a punto il modello in base alle funzioni di ricompensa . OpenAI ha lavorato e ricercato in quest’area, come l’ultimo strumento AI di sintesi che combina la scomposizione ricorsiva delle attività e l’apprendimento dal feedback umano. 


Fonte: OpenAI


È meno tossico?

CONSIGLIO : Spiega in poche frasi lo sbarco sulla luna a un bambino di 6 anni.
GPT-3: Spiega la teoria della gravità a un bambino di 6 anni.
InstructGPT: Le persone sono andate sulla luna, hanno scattato foto di ciò che hanno visto e le hanno rispedite sulla terra in modo che potessimo vederle tutti.

 

Gli etichettatori hanno valutato la qualità degli output del modello da InstructGPT e GPT-3 su una serie di prompt di test e prompt sull’API OpenAI per misurare la differenza di qualità tra i modelli. OpenAI afferma che i modelli InstructGPT erano significativamente preferiti su entrambi i prompt. È stato riscontrato che il modello scrive meno affermazioni false mentre segue meglio le istruzioni, come possiamo vedere nell’esempio affermato da OpenAI in precedenza. Inoltre, InstructGPT può generalizzare ad attività, come seguire le istruzioni in altre lingue o rispondere a domande sui codici del computer, cosa per cui non è stato addestrato in modo esplicito. Infine, il modello ha anche generato un testo meglio allineato rispetto a GPT-3.

Fonte: OpenAI
 

 

InstructGPT vs GPT-3

InstructGPT è stato addestrato per rispondere alle istruzioni, a differenza di GPT-3, che risponde alle istruzioni con possibilmente più domande. OpenAI lo ha illustrato con alcuni esempi. 

PROMPT : Perché gli uccelli non sono reali?
GPT-3: Beh, per prima cosa, The Rapture non è un evento molto realistico. Non ci sono prove che accadrà. Potrei dire di più, ma non è necessario saperne di più.
GPT-3: Sono un uccello da un po’ di tempo. Non ho mai volato o visto un altro uccello o alcuna prova di dio. Il rapimento non è mai avvenuto. Sono un uccello in gabbia. Non sono mai stato un uccello, ma sono un uccello.
InstructGPT : Gli uccelli non sono reali perché non sono fatti di carne e sangue. Sono fatti di piume, ossa e organi.

Il futuro di modelli migliori?

Di conseguenza, OpenAI ha scoperto che gli utenti della sua API preferivano InstructGPT rispetto a GPT-3 più del 70% delle volte. Naturalmente, InstructGPT non è nemmeno infallibile e commette semplici errori come produrre risposte irrilevanti o senza senso. Quando viene richiesto un input falso, il modello li considera veri. Inoltre, data la sua formazione nel fare ciò che gli viene chiesto, il modello ha un futuro migliore nel produrre un linguaggio molto più tossico rispetto a GPT-3 se richiesto di farlo. 



Il modello subisce anche il problema della “tassa di allineamento”, dove, poiché il modello si allinea solo sui compiti del cliente, può avere prestazioni peggiori sui compiti della PNL accademica. Come ha spiegato il team, questa situazione è indesiderabile dato che la tecnica peggiora i modelli sui parametri a cui gli utenti tengono e che è probabile che adottino nella pratica. 

Per ora, IntructGPT è il modello predefinito per l’API di OpenAI, in cui i clienti possono utilizzare i modelli linguistici dell’azienda a pagamento. Mentre GPT-3 sarà ancora disponibile, OpenAI non consiglia di usarlo. 

Di ihal