Un rapporto del rilevatore di plagio Copyleaks ha rivelato che il 60% degli output GPT-3.5 di OpenAI contiene qualche forma di plagio. L’azienda ha utilizzato un metodo di punteggio proprietario che considera testo identico, piccole alterazioni, parafrasi e altro per assegnare un “punteggio di somiglianza”.
Copyleaks si specializza nell’analisi del testo basata sull’intelligenza artificiale e offre strumenti di rilevamento del plagio ad aziende e scuole. L’azienda era attiva ben prima di ChatGPT. Sebbene GPT-3.5 abbia ricevuto l’attenzione al debutto di ChatGPT, da allora OpenAI è passata al più avanzato GPT-4.
Secondo i loro ultimi risultati, GPT-3.5 mostrava il 45,7% di testo identico, il 27,4% di modifiche minori e il 46,5% di testo parafrasato. Un punteggio dello 0% implica completa originalità, mentre il 100% suggerisce nessun contenuto originale, secondo il rapporto.
Copyleaks ha sottoposto GPT-3.5 a vari test, generando circa un migliaio di output, ciascuno di circa 400 parole, su 26 soggetti. I risultati con il punteggio di somiglianza più alto appartenevano all’informatica (100%), seguita dalla fisica (92%) e dalla psicologia (88%). D’altra parte, il teatro (0,9%), le discipline umanistiche (2,8%) e la lingua inglese (5,4%) hanno registrato i punteggi di somiglianza più bassi.
La portavoce di OpenAI, Lindsey Held, ha dichiarato ad Axios: “I nostri modelli sono stati progettati e addestrati per apprendere concetti al fine di aiutarli a risolvere nuovi problemi”. Ha aggiunto che OpenAI ha adottato misure per limitare la memorizzazione involontaria e i loro termini di utilizzo vietano l’uso intenzionale dei modelli per rigurgitare contenuti.
Il plagio non si limita al taglio e incolla di intere frasi e paragrafi. Il New York Times ha intentato una causa contro OpenAI, sostenendo che la “copia su larga scala” dei sistemi di intelligenza artificiale di OpenAI costituisce una violazione del copyright. OpenAI ha risposto alla causa, affermando che il “rigurgito” è un “bug raro” e ha anche accusato il New York Times di “manipolare i suggerimenti”.
Ma i creatori di contenuti, dagli autori agli artisti visivi, hanno cercato di sostenere in tribunale che la tecnologia sottostante, l’intelligenza artificiale generativa, è addestrata sul loro lavoro protetto da copyright; quindi, finisce per sputare copie esatte. Tuttavia, fino ad ora, le leggi sembrano funzionare a favore delle aziende invece che della controparte. C’è un barlume di speranza con il caso del NYT, ma la questione rimane irrisolta.