Nel mese di agosto 2024, circa il 5% dei nuovi articoli pubblicati su Wikipedia in lingua inglese è stato generato dall’intelligenza artificiale. Questo dato è emerso da una ricerca condotta dalla Princeton University, guidata da Creston Brooks, Samuel Eggert e Denis Peskoff. I risultati sottolineano l’aumento della presenza di contenuti generati dall’IA su Wikipedia, un fenomeno che solleva domande importanti riguardo alla qualità dei contenuti, alla responsabilità editoriale e alla possibile amplificazione dei bias esistenti.
Per rilevare la presenza di contenuti creati dall’IA, i ricercatori hanno utilizzato strumenti come GPTZero, un rilevatore proprietario, e Binoculars, un’alternativa open source. Dall’analisi è emerso che il 4,36% dei 2.909 articoli esaminati conteneva una quota significativa di contenuti generati dall’intelligenza artificiale. In particolare, GPTZero ha identificato 156 articoli, mentre Binoculars ne ha segnalati 96, con una sovrapposizione di 45 articoli individuati da entrambi gli strumenti. Gli articoli generati dall’IA tendevano ad avere una qualità inferiore, con meno riferimenti e una scarsa integrazione nella rete di conoscenza di Wikipedia. Alcuni articoli, inoltre, sono risultati autopromozionali, mentre altri hanno spinto posizioni politiche su temi controversi.
Un ulteriore aspetto evidenziato dalla ricerca riguarda l’uso dei modelli di linguaggio di grandi dimensioni (LLM) per creare contenuti su argomenti di nicchia, come funghi, cucina e sport, o per redigere riassunti di libri. Nonostante l’aumento della produttività offerto dai contenuti generati dall’IA, i ricercatori hanno messo in guardia sui rischi legati al riutilizzo incontrollato di tali contenuti, che potrebbe compromettere la qualità e le prestazioni dei modelli.
Lo studio ha confrontato i contenuti di Wikipedia di agosto 2024 con un set di dati antecedente al rilascio di GPT-3.5, rilevando un notevole incremento della presenza di contenuti generati dall’IA. Inoltre, i ricercatori hanno esaminato la diffusione dei contenuti generati dall’IA in altri contesti, come i commenti su Reddit e i comunicati stampa delle Nazioni Unite. Mentre su Reddit meno dell’1% dei contenuti è risultato generato dall’IA, nei comunicati stampa delle Nazioni Unite la percentuale è aumentata al 20% nel 2024.
Il rilevamento dei contenuti generati dall’intelligenza artificiale rimane ancora una sfida. Con l’ascesa degli LLM generativi, anche gli strumenti di rilevamento stanno evolvendo, ma la loro efficacia varia a seconda del contesto e delle caratteristiche del testo. Il documento sottolinea la necessità di sviluppare metodi più affidabili per verificare l’origine dei contenuti e invita i regolatori a livello globale a prendere provvedimenti per affrontare le minacce generate dall’IA. Alcuni paesi, come la Cina, hanno già iniziato ad adottare regolamenti per aumentare la trasparenza sui contenuti generati dall’IA, mentre in India sono state introdotte linee guida sull’etichettatura dei contenuti correlati all’intelligenza artificiale.