Infine OpenAI prevede di affrontare i problemi di sicurezza di GPT-3
OpenAI ha iniziato a utilizzare set di dati accademici per valutare i modelli linguistici, ma ha scoperto che questi set di dati di riferimento non includevano i pericoli nella vita reale della sicurezza e dell’uso improprio.
 
All’inizio di marzo, OpenAI ha pubblicato un blog in cui osservava che negli ultimi due anni i ricercatori avevano raccolto risultati su come i loro modelli linguistici come GPT-3 e Codex potessero essere utilizzati in modo improprio. OpenAI ammette di non aver previsto che GPT-3 sarebbe stato utilizzato nella produzione, per questo motivo non erano severi nel filtrare i dati di addestramento tossici con i modelli precedenti. L’azienda ha iniziato a studiare i rischi associati all’implementazione di modelli linguistici nel 2019 quando ha rilasciato GPT-2. 

Storia del GPT
Anche allora, c’erano sufficienti campanelli di avvertimento che suonavano quando GPT-2 uscì. Il generatore di testo potrebbe diventare un facile bersaglio per la produzione di notizie false online e per l’astroturfing, che è un modo per creare un falso movimento di base a sostegno di una causa. L’astroturfing è una tattica ampiamente utilizzata in passato da società come Exxon, Comcast, Walmart e persino governi. In un caso noto nel 2018, un’indagine penale ha scoperto che sono stati generati commenti falsi online per mostrare sostegno al rifiuto della neutralità della rete da parte della FCC. Le persone menzionate nei commenti hanno affermato che i loro nomi sono stati usati senza autorizzazione. OpenAI aveva già anticipato i problemi di sicurezza che potevano sorgere con GPT-2 e inizialmente ha deciso di non renderlo open source. Ma dopo le critiche della comunità degli sviluppatori, OpenAI lo ha rilasciato in modelli di dimensioni più piccole in più fasi. 

Entità dell’uso improprio 
Nel giugno 2020, OpenAI ha nuovamente concesso l’accesso completo all’API OpenAI in modo che sviluppatori e ricercatori potessero sviluppare e utilizzare le applicazioni in aggiunta ai nuovi modelli di intelligenza artificiale di OpenAI. Tuttavia, dal GPT-2, OpenAI ha imparato alcune dure lezioni. In un documento pubblicato nel 2019 intitolato ” Strategie di rilascio e impatti sociali dei modelli linguistici “, OpenAI ha affermato di aver collaborato con esperti di sicurezza e la comunità di intelligenza artificiale per trarre conclusioni dai dati raccolti dalle comunità di disinformazione e odio. Come soluzione, ha sviluppato prove di concetto e ha incoraggiato terze parti ad analizzare attentamente i pericoli coinvolti. 

Fino ad allora, la ricerca aveva dimostrato che il sistema di risposta che OpenAI aveva costruito per prevenire l’uso improprio di GPT-3 , comprese le linee guida sui casi d’uso, le linee guida sui contenuti e il rilevamento interno, erano limitati a falsi dati politici o alla generazione di malware con Codex . Tuttavia, gli sforzi di rilevamento hanno dovuto evolversi nel tempo poiché si sono verificati vari casi di uso improprio che erano al di fuori dell’ambito della valutazione del rischio di OpenAI. C’erano casi che OpenAI non si aspettava, come la ripetuta promozione di prodotti medici non verificati o la riproduzione di fantasie razziste. 

Sfide della valutazione del rischio 
OpenAI ha iniziato a utilizzare set di dati accademici per valutare i modelli linguistici, ma ha scoperto che questi set di dati di riferimento non includevano i pericoli nella vita reale della sicurezza e dell’uso improprio. I set di dati accademici non sono adatti per informare i modelli linguistici in produzione, il che ha portato OpenAI a lavorare su nuovi set di dati e framework per testare la sicurezza dei loro modelli. Questi dovrebbero essere rilasciati presto. Le linee guida della politica di OpenAI sono state ampliate per includere categorie come:

Incitamento all’odio
Molestie 
Autolesionismo
Violenza
Contenuto politico
Contenuti per adulti o erotici
Spam
Inganno
Malware
OpenAI ha quindi applicato questi filtri ai dati di pre-allenamento e ha filtrato i contenuti. Ha inoltre sviluppato nuove metriche di valutazione, che ha utilizzato per calcolare l’effetto degli interventi sui set di dati. OpenAI ha ammesso che, sebbene fosse difficile classificare i singoli output del modello in dimensioni diverse, era ancora più difficile misurare l’impatto sociale su scala dell’API OpenAI. 

L’impatto economico sul mercato del lavoro derivante dall’implementazione di questi modelli è stato ovviamente considerevole e in aumento ogni giorno, man mano che anche i modelli crescevano a portata di mano. C’è stato un aumento della produttività nei lavori che eseguivano attività come copywriting e sintesi, insieme a casi in cui l’API ora includeva nuove applicazioni come la sintesi di feedback qualitativi su larga scala. Nonostante ciò, OpenAI ha affermato di non poter stimare quanto fosse l’effetto netto. 

Asporto
Nel luglio dello scorso anno, una discussione tenuta dall’AI Security Initiative , un programma avviato dall’Università della California, Berkeley, includeva relatori come Carolyn Ashurst, ricercatrice senior associata in Safe and Ethical AI presso l’Alan Turing Institute, Rosie Campbell , un responsabile del programma tecnico presso OpenAI e Zeerak Waseem, uno studente di dottorato dell’Università di Sheffield. Il dibattito ruotava attorno ai rischi posti dai modelli linguistici visti dal contesto dell’incitamento all’odio. 


“I modelli linguistici sono simili al mostro di Mary Shelley. Presuppongono una logica distributiva secondo cui possiamo rimuovere qualcosa dal suo contesto e ricucirlo insieme a qualcos’altro. E poi, ripetiamo questi dati disincarnati come se il significato non fosse stato metodicamente spogliato. E questo ignora le domande su da dove provengono i dati, chi sono i relatori e quali norme comunicative sono accettabili da codificare. Ciò con cui finiamo sono i nostri modelli che parlano o agiscono senza responsabilità o intenzione”, ha affermato Waseem. 

Campbell di OpenAI ha fatto riferimento a un rapporto di cui è coautrice con Partnership on AI intitolato “Managing the Risks of AI Research: Six Recommendations for Responsible Publication”. Alcune di queste raccomandazioni includevano la richiesta a ricercatori e pubblicazioni accademiche di essere più schietti sul possibile impatto negativo che i modelli linguistici di grandi dimensioni possono avere. Ha aggiunto che prima è stato individuato il problema, meglio sarebbe e le persone che sottolineano i difetti non devono essere penalizzate. 

Carolyn Ashurst ha suggerito che l’implementazione responsabile dei modelli potrebbe essere incentivata attraverso varie misure. Uno potrebbe essere attraverso la governance da parte di autorità esterne e in secondo luogo attraverso l’autogoverno conducendo revisioni tra pari all’interno della comunità. 

OpenAI ha menzionato nel suo blog che la schiacciante popolarità dei modelli InstructGPT tra gli sviluppatori rispetto ai modelli GPT-3 di base era la prova che gli utenti preferivano la sicurezza. I modelli InstructGPT sono il risultato della messa a punto di OpenAI dei suoi modelli GPT-3 in modo che si allineassero meglio con le istruzioni degli utenti anziché con la fattibilità commerciale. OpenAI incoraggia una connessione più forte tra la sicurezza di un modello linguistico e la sua utilità commerciale. 


Tuttavia, anche i modelli InstructGPT non sono privi di lacune. InstructGPT può essere un miglioramento rispetto a GPT-3 – Il tasso di allucinazioni di InstructGPT è del 21% rispetto al 41% di GPT-3. Ma Jan Leike, il capo del team di allineamento di OpenAI, ha avvertito che InstructGPT potrebbe ancora essere “abusato” e che “non è completamente allineato né sicuro”. 

Piattaforma aperta per aiutare
OpenAI ha accolto i ricercatori per essere coinvolti attraverso un programma di crediti API sovvenzionato offerto agli esperti che lavorano su pregiudizi e abusi. OpenAI ha anche affermato che, sebbene avesse interrotto la lista d’attesa dell’API per infondere maggiore fiducia nella propria capacità di rispondere all’uso improprio, le persone interessate potevano iscriversi all’API OpenAI. 

Di ihal