OpenAI scarica il proprio GPT-3 per qualcosa chiamato InstructGPT e per una giusta ragione
Rispetto a GPT-3, InstructGPT produce meno falsità imitative (secondo TruthfulQA) e sono meno tossici  

 
OpenAI ha addestrato modelli linguistici che sono molto più bravi a seguire le intenzioni degli utenti rispetto a GPT-3. I modelli InstructGPT vengono addestrati con gli esseri umani nel ciclo e vengono distribuiti come modelli di linguaggio predefiniti sull’API OpenAI. Il team afferma di averli resi più veritieri e meno tossici utilizzando tecniche sviluppate attraverso la ricerca sull’allineamento.

L’ API OpenAI è alimentata da modelli linguistici GPT-3 in grado di eseguire attività in linguaggio naturale utilizzando prompt di testo accuratamente progettati. Ma questi modelli a volte generano risultati non veritieri, tossici o riflettono sentimenti dannosi.

Per rendere i modelli più sicuri, utili e allineati, OpenAI ha utilizzato l’apprendimento per rinforzo dal feedback umano (RLHF) per mettere a punto GPT-3. Ciò ha reso i modelli InstructGPT risultanti molto migliori nel seguire le istruzioni rispetto a GPT-3.

I modelli InstructGPT sono in versione beta sull’API da più di un anno. Questa è la prima volta che OpenAI applica la propria ricerca sull’allineamento al proprio prodotto. 

Rispetto a GPT-3 , InstructGPT produce meno falsità imitative (secondo TruthfulQA) e sono meno tossici (secondo RealToxicityPrompts). Il team ha anche condotto valutazioni umane sulla distribuzione rapida delle API e ha scoperto che InstructGPT inventa fatti (“allucinazioni”) meno spesso e genera output più appropriati.

Secondo OpenAI, InstructGPT “sblocca” le capacità che GPT-3 aveva già, ma erano difficili da ottenere solo con una progettazione tempestiva. “Questo perché la procedura di addestramento ha una capacità limitata di insegnare al modello nuove capacità rispetto a ciò che viene appreso durante il preaddestramento, poiché utilizza meno del 2% del calcolo e dei dati relativi al preaddestramento del modello”, secondo il loro blog ufficiale.

Il team di OpenAI ha anche avvertito che, nonostante i progressi significativi, i modelli InstructGPT sono tutt’altro che completamente allineati o completamente sicuri e generano ancora output tossici o distorti, inventano fatti e generano contenuti sessuali e violenti senza espliciti suggerimenti. “Ma la sicurezza di un sistema di machine learning dipende non solo dal comportamento dei modelli sottostanti, ma anche da come questi modelli vengono implementati. Per supportare la sicurezza della nostra API, continueremo a esaminare le potenziali applicazioni prima che diventino attive, fornire filtri di contenuto per rilevare completamenti non sicuri e monitorare l’uso improprio”.

Di ihal