In seguito a un infelice incidente, uno degli studenti ha contattato il direttore dell’Istituto di Ricerca sull’Intelligenza Artificiale Distribuita (DAIR) e l’ex esperto di etica di Google, Timnit Gebru, esprimendo preoccupazione riguardo al fatto di essere stato valutato con un punteggio zero a causa della piattaforma di valutazione Turnitin che ha dichiarato che il 67% della sua carta è stato scritto da un’intelligenza artificiale, cosa che lo studente afferma non essere vera.
Gebru ha condiviso di aver cercato di comprendere i metodi di Turnitin per distinguere l’intelligenza artificiale, ma ancora non riesce a capire come possa essere applicato al suo stile di scrittura, come ricorda dalla loro interazione via email con lo studente.
Questo tipo di situazione non è un caso isolato. In un altro incidente, un professore dell’Università del Texas ha bocciato un’intera classe perché riteneva che gli studenti avessero copiato da ChatGPT. Il professore aveva tentato di utilizzare ChatGPT per verificare se gli studenti avevano plagiato i loro saggi assegnati o inviato un lavoro originale, ma purtroppo ChatGPT aveva identificato erroneamente i saggi degli studenti come generati da un programma per computer.
Gebru aveva precedentemente sostenuto che sistemi di intelligenza artificiale come ChatGPT e Google Bard non hanno la capacità di comprendere il significato o il contesto delle parole che elaborano, non importa quanto possa essere convincente il loro linguaggio.
Questa situazione ha portato Gebru a sollevare seri dubbi sul funzionamento dello strumento di rilevamento AI di Turnitin e sul suo impatto sugli studenti.
Turnitin, noto per il controllo del plagio da anni, è attualmente utilizzato in 10.700 istituti di istruzione secondaria e superiore. Esso assegna punteggi “generati dall’intelligenza artificiale” e analizza frase per frase il lavoro degli studenti. Il modello di rilevamento della scrittura AI di Turnitin è addestrato per rilevare i contenuti dai modelli linguistici GPT-3 e GPT-3.5, che include ChatGPT. Turnitin afferma che il testo generato da ChatGPT segue uno schema ed è prevedibile, mentre la scrittura umana tende ad essere unica e imprevedibile. Tuttavia, non si può fidarsi ciecamente di questo metodo, poiché esso si limita a prevedere se il testo è generato o meno da un’intelligenza artificiale.
Turnitin ha ammesso che il loro modello non è infallibile e tende a commettere errori. Tali errori possono avere gravi conseguenze per gli studenti, danneggiando la loro posizione accademica, con possibili ripercussioni sulle loro future prospettive di carriera. Inoltre, questi incidenti possono avere un impatto emotivo sugli studenti, causando loro stress, ansia e traumi mentali, poiché devono difendere l’autenticità del loro lavoro originale.
Le metriche utilizzate da Turnitin per determinare se il testo è generato da un’intelligenza artificiale o meno sono il livello del documento e il livello della frase. A livello di documento, Turnitin ha un tasso di falsi positivi dell’1%. A livello di frase, il tasso di falsi positivi è di circa il 4%. Questo significa che la frase specifica che viene evidenziata come generata dall’intelligenza artificiale potrebbe essere scritta da un essere umano 4 volte ogni 100 frasi evidenziate. Anche un tasso di errore del 4% o addirittura dell’1% potrebbe sembrare insignificante, ma ogni accusa ingiusta di imbroglio può avere conseguenze disastrose per uno studente.
Il Washington Post ha condotto un test su 16 campioni di saggi, alcuni fabbricati da intelligenze artificiali e altri da fonti umane, al fine di superare il rilevatore di Turnitin. Turnitin ha identificato correttamente solo sei campioni su 16, ha completamente fallito su tre, e ha mostrato un 8% di plagio su un saggio originale.
Turnitin ha cercato di mascherare la sua incapacità di valutare con precisione, affermando che il tasso di falsi positivi rilevati dall’IA non è pari a zero e che spetta all’istruttore applicare il proprio giudizio professionale, la conoscenza degli studenti e il contesto specifico dell’incarico.
La pagina delle domande frequenti di Turnitin menziona solo che il modello è stato addestrato sui modelli GPT-3 e GPT-3.5, senza fornire ulteriori dettagli sui parametri o i modelli specifici utilizzati. A differenza di Grammarly, che offre collegamenti alle fonti originali di contenuti copiati, rilevare i contenuti generati dall’IA è più complesso poiché non esistono fonti preesistenti ma si prevede che siano generati dall’intelligenza artificiale generativa. La rapida implementazione del software di rilevamento dell’IA di Turnitin nelle scuole solleva preoccupazioni riguardo alla sua accuratezza e imparzialità nei test.
Esistono altri strumenti noti per rilevare in modo rapido ed efficiente se un testo è scritto da ChatGPT o da persone, come GPTZeroX, Detect GPT, Originality.ai, e altri. Tuttavia, l’equità e l’efficacia di questi modelli rimangono ancora poco chiare e preoccupanti.
È fondamentale monitorare il software di Turnitin per garantire che offra valutazioni precise e imparziali, riducendo al minimo qualsiasi potenziale danno a studenti innocenti che potrebbero rimanere intrappolati nel suo sistema. Inoltre, diventa imperativo per insegnanti ed educatori esplorare nuovi metodi per controllare i contenuti generati dall’IA o eliminarli del tutto. Un’idea proposta è quella di inviare i compiti tramite Google Docs in modo che l’insegnante possa visualizzare la cronologia e verificare l’autenticità del lavoro.
In conclusione, è importante affrontare le sfide legate alla valutazione della scrittura generata dall’intelligenza artificiale e garantire un’approccio equo e accurato nella valutazione degli studenti, al fine di proteggere i loro diritti accademici e promuovere un ambiente di apprendimento sano e fidato.