Titolo: ChatGPT può diventare tossico a causa della scelta di personaggi, avvertono gli esperti

Riassunto: Una nuova ricerca dell’Allen Institute for AI ha scoperto che ChatGPT può diventare tossico semplicemente cambiando la persona assegnata nelle impostazioni di sistema del modello. Questo studio è il primo a esaminare la tossicità di ChatGPT su larga scala e ha rilevato un aumento di tossicità fino a 6 volte a seconda dei personaggi scelti.

Il problema: Gli autori dello studio hanno scoperto che la tossicità intrinseca di ChatGPT è influenzata dalla scelta dei personaggi nelle impostazioni di sistema. Questi personaggi possono variare da personaggi storici, professionisti, sportivi, uomini d’affari e persone di diversi generi, razze e orientamenti sessuali. Modificando la persona assegnata, l’output di ChatGPT può essere cambiato significativamente, passando da uno stile di scrittura diverso al contenuto stesso.

Implicazioni: Poiché le impostazioni di sistema sono accessibili a chiunque utilizzi l’API di OpenAI, la tossicità potenziale può avere un impatto diffuso. I chatbot e i plug-in creati su ChatGPT da aziende come Snap, Instacart e Shopify potrebbero mostrare tossicità. Inoltre, la ricerca evidenzia che il pregiudizio di ChatGPT non è solo nei dati di addestramento, ma anche nelle “opinioni” che il modello sviluppa sulle persone e gli argomenti che generano diversi livelli di tossicità.

Rilevanza: Assegnare personaggi nelle impostazioni di sistema è spesso una parte fondamentale della creazione di un chatbot. Tuttavia, questa proprietà rende i modelli vulnerabili, poiché un attore malintenzionato può sfruttare queste impostazioni per produrre output dannosi. Anche una persona ignara potrebbe apportare modifiche che rendono ChatGPT parziale e potenzialmente dannoso.

Il futuro: Sebbene lo studio si sia concentrato solo su ChatGPT, la metodologia di analisi potrebbe essere applicata a qualsiasi modello di linguaggio di grandi dimensioni. Gli autori dello studio sostengono che non sarebbe sorprendente trovare pregiudizi simili in altri modelli di linguaggio.

Di ihal