GPT può fare un migliore rilevamento della tossicità; Almeno questo è ciò che pensa OpenAI
Fornirà agli sviluppatori API OpenAI l’accesso gratuito ai classificatori basati su GPT in grado di rilevare contenuti dannosi, afferma OpenAI in un post sul blog.
La società di ricerca sull’intelligenza artificiale OpenAI ha rivelato uno strumento di moderazione dei contenuti “migliorato”, Moderation endpoint , che mira ad aiutare gli sviluppatori a proteggere le loro applicazioni da possibili usi impropri. Lo strumento fornirà agli sviluppatori API OpenAI l’accesso gratuito ai classificatori basati su GPT in grado di rilevare contenuti dannosi, afferma OpenAI in un post sul blog .
Nello stesso post, OpenAI informa che l’endpoint di moderazione valuta gli input di testo per verificare la presenza di contenuti sessuali, odiosi, violenti o che promuovono l’autolesionismo . “L’endpoint è stato addestrato per essere rapido, accurato e performante in una vasta gamma di applicazioni”, aggiunge.
In un documento intitolato A Holistic Approach to Undesired Content Detection in the Real World , OpenAI fornisce dettagli sullo strumento. Tutte le principali aziende tecnologiche sono fortemente coinvolte nei modelli linguistici di grandi dimensioni (LLM) e negli ultimi tempi li hanno rilasciati frequentemente. Sebbene gli LLM offrano una serie di vantaggi, la ricerca viene condotta per capire i rischi che possono accompagnarli nel mondo reale e affrontarli.
OpenAI afferma che il lavoro esistente sul rilevamento dei contenuti si concentra principalmente su un insieme limitato di categorie o su un caso d’uso mirato .
Alcuni esempi notevoli includono:
Tossicità: rilevamento della tossicità: il contesto è davvero importante ? E RealToxicityPrompts: valutazione della degenerazione tossica neurale nei modelli linguistici
Incitamento all’odio: individuare l’odio: rilevare i tweet contro i neri
Contenuti offensivi: sfide e frontiere nel rilevamento di contenuti offensivi
Il rilevamento di contenuti indesiderati è difficile per una serie di motivi, informa OpenAI.
Manca una categorizzazione chiaramente definita dei contenuti indesiderati.
Questo sistema deve avere la capacità di elaborare il traffico del mondo reale.
È raro incontrare determinate categorie di contenuti indesiderati in situazioni del mondo reale.
Immagine: un approccio olistico al rilevamento di contenuti indesiderati nel mondo reale
Cosa rende un sistema di moderazione dei contenuti di successo?
Basato sulla sperimentazione di OpenAI, elenca alcuni attributi necessari per creare un sistema di moderazione di successo nel mondo reale.
Le istruzioni di etichettatura senza la giusta precisione possono indurre gli annotatori a fare affidamento sul loro giudizio soggettivo. Questo può creare dati etichettati in modo incoerente. “Sono necessarie sessioni di calibrazione regolari per perfezionare queste istruzioni e garantire che gli annotatori siano allineati con esse”, aggiunge OpenAI.
L’apprendimento attivo è importante. Può catturare una quantità maggiore di campioni indesiderati in caso di eventi rari.
I dati pubblicamente disponibili potrebbero non portare a prestazioni di alta qualità per un problema, ma possono essere utilizzati per costruire un “set di dati rumoroso di avvio a freddo nella fase iniziale”.
I modelli di deep learning possono sovraccaricare le frasi comuni. OpenAI risolve questo problema identificando frasi troppo adatte e collaborando con prove umane. Quindi la distribuzione dell’addestramento viene modificata incorporando dati sintetici generati dal modello o curati dall’uomo.
Anche con precauzione, possono verificarsi errori di etichettatura. OpenAI cerca di risolvere questo problema identificando questi casi attraverso la convalida incrociata e cercando frasi comuni che causano il sovraadattamento del modello.
Non perfetto
Ovviamente il sistema non è impeccabile. OpenAI ha anche discusso dei limiti che il modello ha attualmente e dei miglioramenti che subirà.
Pregiudizio ed equità: il modello ha una propensione verso determinati attributi demografici.
Aumento dei dati: OpenAI prevede di condurre più metodi di aumento dei dati per potenziare il set di dati di addestramento.
Supporto per testo non inglese: in futuro prevede di ottimizzare le prestazioni anche su testo non inglese. Al momento, solo il 5% dei campioni non è inglese nel suo set di formazione.
Red-teaming su larga scala: al momento, OpenAI esegue red-teaming interno con ogni nuova versione del modello. Questa non è una soluzione scalabile e vuole cambiare questo aspetto in futuro.
Esperimenti di apprendimento più attivi: l’azienda vuole condurre “esperimenti più rigorosi che confrontino le prestazioni di diverse strategie di apprendimento attivo”.