Open Ai mette a disposizione uno strumento che dovrebbe essere in grado di capire se un test è stato generato o meno da una intelligenza artificiale, oppure se sia stato scritto da un essere umano:
Ecco il claim e la spiegazione di OpenAI sul Classificatore :
Abbiamo addestrato un classificatore per distinguere tra testo scritto da un essere umano e testo scritto da IA di una varietà di fornitori. Sebbene sia impossibile rilevare in modo affidabile tutto il testo scritto dall’intelligenza artificiale, riteniamo che i buoni classificatori possano informare le mitigazioni per false affermazioni secondo cui il testo generato dall’intelligenza artificiale è stato scritto da un essere umano: ad esempio, l’esecuzione di campagne di disinformazione automatizzate , l’utilizzo di strumenti di intelligenza artificiale per la disonestà accademica e posizionare un chatbot AI come un essere umano.
Il nostro classificatore non è completamente affidabile. Nelle nostre valutazioni su un “insieme di sfide” di testi in inglese, il nostro classificatore identifica correttamente il 26% del testo scritto dall’IA (veri positivi) come “probabilmente scritto dall’IA”, mentre etichetta erroneamente il testo scritto dall’uomo come il 9% scritto dall’IA il tempo (falsi positivi). L’affidabilità del nostro classificatore in genere migliora con l’aumentare della lunghezza del testo di input. Rispetto al nostro classificatore rilasciato in precedenza , questo nuovo classificatore è significativamente più affidabile sul testo dei sistemi IA più recenti.
Stiamo rendendo questo classificatore pubblicamente disponibile per ottenere feedback sull’utilità di strumenti imperfetti come questo. Il nostro lavoro sul rilevamento del testo generato dall’intelligenza artificiale continuerà e speriamo di condividere metodi migliorati in futuro.
Limitazioni
Il nostro classificatore ha una serie di limitazioni importanti. Non dovrebbe essere utilizzato come strumento decisionale primario , ma come complemento ad altri metodi per determinare la fonte di una parte di testo.
Il classificatore è molto inaffidabile su testi brevi (sotto i 1.000 caratteri). Anche i testi più lunghi a volte vengono etichettati in modo errato dal classificatore.
A volte il testo scritto dall’uomo verrà etichettato in modo errato ma sicuro come scritto dall’intelligenza artificiale dal nostro classificatore.
Si consiglia di utilizzare il classificatore solo per il testo inglese. Funziona significativamente peggio in altre lingue ed è inaffidabile sul codice.
Un testo molto prevedibile non può essere identificato in modo affidabile. Ad esempio, è impossibile prevedere se un elenco dei primi 1.000 numeri primi sia stato scritto dall’IA o dall’uomo, perché la risposta corretta è sempre la stessa.
Il testo scritto da AI può essere modificato per eludere il classificatore. Classificatori come il nostro possono essere aggiornati e riaddestrati in base agli attacchi riusciti, ma non è chiaro se il rilevamento abbia un vantaggio a lungo termine.
È noto che i classificatori basati su reti neurali sono scarsamente calibrati al di fuori dei loro dati di addestramento. Per input che sono molto diversi dal testo nel nostro set di addestramento, il classificatore a volte è estremamente fiducioso in una previsione errata.
Addestrare il classificatore
Il nostro classificatore è un modello linguistico messo a punto su un set di dati di coppie di testo scritto dall’uomo e testo scritto dall’intelligenza artificiale sullo stesso argomento. Abbiamo raccolto questo set di dati da una varietà di fonti che riteniamo siano state scritte da esseri umani, come i dati di pre-addestramento e le dimostrazioni umane sui prompt inviati a InstructGPT . Abbiamo diviso ogni testo in un prompt e una risposta. Su questi suggerimenti abbiamo generato risposte da una varietà di diversi modelli linguistici addestrati da noi e da altre organizzazioni. Per la nostra app Web, regoliamo la soglia di confidenza per mantenere basso il tasso di falsi positivi; in altre parole, contrassegniamo il testo come probabilmente scritto da AI solo se il classificatore è molto sicuro.
Impatto sugli educatori e richiesta di input
Riconosciamo che l’identificazione del testo scritto dall’intelligenza artificiale è stato un importante punto di discussione tra gli educatori, e altrettanto importante è riconoscere i limiti e gli impatti dei classificatori di testo generati dall’intelligenza artificiale in classe. Abbiamo sviluppato una risorsa preliminare sull’uso di ChatGPT per gli educatori, che delinea alcuni degli usi e le relative limitazioni e considerazioni. Sebbene questa risorsa sia incentrata sugli educatori, ci aspettiamo che il nostro classificatore e gli strumenti di classificazione associati abbiano un impatto su giornalisti, ricercatori di mis/disinformazione e altri gruppi.
Ci stiamo impegnando con gli educatori negli Stati Uniti per sapere cosa stanno vedendo nelle loro classi e per discutere delle capacità e dei limiti di ChatGPT, e continueremo ad ampliare il nostro raggio d’azione man mano che apprendiamo. Queste sono conversazioni importanti da avere poiché parte della nostra missione è distribuire modelli linguistici di grandi dimensioni in modo sicuro, a diretto contatto con le comunità interessate.
Se sei direttamente interessato da questi problemi (inclusi, a titolo esemplificativo ma non esaustivo, insegnanti, amministratori, genitori, studenti e fornitori di servizi educativi), inviaci un feedback utilizzando questo modulo . Il feedback diretto sulla risorsa preliminare è utile e accogliamo con favore anche tutte le risorse che gli educatori stanno sviluppando o hanno trovato utili (ad es. linee guida del corso, codice d’onore e aggiornamenti delle politiche, strumenti interattivi, programmi di alfabetizzazione AI).