Il linguaggio generato dall’intelligenza artificiale sta iniziando a inquinare la letteratura scientifica
Ricercatori di Francia e Russia hanno pubblicato uno studio che indica che l’uso di generatori di testo probabilistici basati sull’intelligenza artificiale come GPT-3 sta introducendo “linguaggio torturato”, citazioni di letteratura inesistente e riutilizzo di immagini ad hoc e non accreditato in canali precedentemente rispettabili per la pubblicazione di nuova letteratura scientifica.
Forse la cosa più preoccupante è che i documenti studiati contengano anche contenuti scientificamente imprecisi o non riproducibili presentati come i frutti di una ricerca obiettiva e sistematica, indicando che i modelli di linguaggio generativo vengono utilizzati non solo per rafforzare le limitate competenze in inglese degli autori dei documenti, ma in realtà per fare il duro lavoro richiesto (e, invariabilmente, per farlo male).
Il rapporto , intitolato Frasi torturate: uno stile di scrittura dubbio emergente nella scienza , è stato compilato dai ricercatori del Dipartimento di informatica dell’Università di Tolosa e dal ricercatore di Yandex Alexander Magazinov, attualmente all’Università di Tel Aviv.
Lo studio si concentra in particolare sulla crescita di pubblicazioni scientifiche senza senso generate dall’intelligenza artificiale presso l’Elsevier Journal Microprocessors and Microsystems .
Con qualsiasi altro nome
I modelli di linguaggio autoregressivo come GPT-3 sono addestrati su elevati volumi di dati e sono progettati per parafrasare, riassumere, raccogliere e interpretare tali dati in modelli di linguaggio generativo coeso che sono in grado di riprodurre modelli di linguaggio e scrittura naturali, pur mantenendo l’originale intenzione dei dati di allenamento.
Poiché tali framework sono spesso puniti nella fase di addestramento del modello per offrire un rigurgito diretto e “non assorbito” dei dati originali, cercano inevitabilmente sinonimi, anche per frasi ben consolidate.
Le presentazioni scientifiche apparentemente create/aiutate dall’intelligenza artificiale portate alla luce dai ricercatori includono un numero straordinario di tentativi falliti di sinonimi creativi per frasi conosciute nel settore dell’apprendimento automatico :
rete neurale profonda: ” organizzazione neurale profonda”
rete neurale artificiale : “organizzazione neurale (falsa | contraffatta)”
rete mobile: ” organizzazione versatile”
attacco di rete: ” organizzazione (agguato | assalto)”
connessione di rete: big data “associazione organizzativa”
: ‘ (enorme | enorme | immenso | colossale) informazioni’
Data warehouse: ‘informazioni (magazzino | centro di distribuzione)’
arti fi ciale intelligence (AI): ‘(contraffazione | dall’uomo) coscienza’
calcolo ad alte prestazioni: ‘fi elite gurazione di’
nebbia /mist/cloud computing: ‘haze figuring’
unità di elaborazione grafica (GPU): ‘unità di preparazione dei disegni’ unità di
elaborazione centrale (CPU): ‘unità di preparazione focale’
motore del flusso di lavoro: ‘motore del processo di lavoro’
riconoscimento facciale : ‘riconoscimento facciale’
riconoscimento vocale: ‘riconoscimento del discorso’
errore quadratico medio: ‘mean square (errore | errore)’
significa errore assoluto: ‘mean (outright | supremo) (errore | errore)’ da
segnale a rumore: ‘(movimento | flag | indicatore | segno | segnale) a (clamore | commozione | rumore) ‘
parametri globali: ‘parametri mondiali’
accesso casuale: ‘(arbitrario | irregolare) ottenere il diritto di passaggio a’
foresta casuale:'(arbitrario | irregolare) (boschi | bosco | territorio lussureggiante)’
valore casuale: ‘(arbitrario | irregolare) stima’
colonia di formiche: ‘insetto sotterraneo (stato | provincia | area | regione | insediamento)’
colonia di formiche: ‘raccapricciante sotterraneo crawly (stato | provincia | area | regione | insediamento)’
energia residua: ‘vitalità residua’
energia cinetica: ‘vitalità motoria’
ingenuo Bayes: ‘(credulo | innocente | credulone)
assistente digitale personale (PDA) di Bayes : ‘individuale computerizzato collaboratore’
Nel maggio del 2021 i ricercatori hanno interrogato il motore di ricerca accademico Dimensions alla ricerca di questo tipo di linguaggio distorto e automatizzato, avendo cura di escludere frasi legittime come “informazioni enormi” (che è una frase valida, e non un sinonimo fallito di “grande dati’). A questo punto hanno osservato che Microprocessori e Microsistemi avevano il maggior numero di occorrenze di parafrasi mal gestite.
Al momento, è ancora possibile recuperare ( foto d’archivio , 15/07/2021) un certo numero di articoli scientifici per la frase senza senso “organizzazione neurale profonda” (cioè “rete neurale profonda”) e altri nell’elenco sopra successi simili.
Risultati della ricerca per ‘organizzazione neurale profonda’ (‘rete neurale profonda’) su Dimensions. Fonte: https://app.dimensions.ai/
La rivista Microprocessors è stata fondata nel 1976 e ribattezzata Microprocessors and Microsystems due anni dopo.
Una crescita del linguaggio senza senso
I ricercatori hanno studiato un periodo che va da febbraio 2018 a giugno del 2021 e hanno osservato un forte aumento del volume delle presentazioni negli ultimi due anni, e in particolare negli ultimi 6-8 mesi:
Il dataset finale raccolto dai collaboratori contiene 1.078 articoli completi ottenuti tramite l’abbonamento Elsevier dell’Università di Tolosa.
Diminuzione della supervisione editoriale per gli articoli scientifici cinesi
Il documento osserva che il periodo di tempo assegnato per la valutazione editoriale dei contributi segnalati si riduce radicalmente nel 2021, scendendo al di sotto dei 40 giorni; una diminuzione di sei volte del tempo standard per la revisione tra pari, evidente dal febbraio del 2021.
Il maggior numero di articoli segnalati proviene da autori con affiliazioni alla Cina continentale: su 404 articoli accettati in meno di 30 giorni, il 97,5% è relativo alla Cina. Al contrario, nei casi in cui il processo editoriale ha superato i 40 giorni (615 articoli), le proposte affiliate alla Cina hanno rappresentato solo il 9,5% di quella categoria, uno squilibrio di dieci volte.
Il rapporto attribuisce l’infiltrazione dei giornali segnalati a carenze nel processo editoriale e a una possibile mancanza di risorse a fronte di un numero crescente di contributi.
I ricercatori ipotizzano che modelli generativi in stile GPT e tipi simili di framework di generazione del linguaggio siano stati utilizzati per produrre gran parte del testo nei documenti contrassegnati; tuttavia, il modo in cui un modello generativo astrae le sue fonti lo rende difficile da dimostrare, e l’evidenza principale risiede in una valutazione di buon senso di sinonimi poveri e non necessari e in un esame meticoloso della coerenza logica della sottomissione.
I ricercatori osservano inoltre che i modelli di linguaggio generativo che ritengono contribuiscano a questa marea di sciocchezze sono in grado non solo di creare i testi problematici, ma anche di riconoscerli e segnalarli sistematicamente, allo stesso modo in cui gli stessi ricercatori hanno svolto manualmente. Il lavoro descrive in dettaglio tale implementazione, utilizzando GPT-2, e offre una struttura per i sistemi futuri per identificare le proposte scientifiche problematiche.
L’incidenza di contributi “inquinati” è molto più alta nella rivista Elsevier (72,1%) rispetto ad altre riviste studiate (13,6% massimo).
Non solo semantica
I ricercatori sottolineano che molte delle riviste in questione non stanno semplicemente usando la lingua sbagliata, ma contengono affermazioni scientificamente inaccurate, indicando la possibilità che i modelli di linguaggio generativo non vengano utilizzati solo per migliorare le limitate abilità linguistiche degli scienziati che contribuiscono, ma potrebbero effettivamente essere essere utilizzato per formulare almeno alcuni dei teoremi e dei dati fondamentali dell’articolo.
In altri casi i ricercatori postulano un’efficace “risintesi” o “spinning” di lavori precedenti astratti (e superiori), al fine di soddisfare le pressioni delle culture di ricerca accademica “pubblica o perire”, e possibilmente per migliorare le classifiche nazionali per i pre- eminenza nella ricerca sull’intelligenza artificiale, attraverso il volume.
Contenuto senza senso in un documento inviato. In questo caso, i ricercatori hanno scoperto che il testo è stato derivato, ad hoc, da un articolo EDN , da cui anche l’illustrazione di accompagnamento viene sottratta senza attribuzione. La riscrittura del contenuto originale è così estrema da renderlo privo di significato.
Analizzando molti dei documenti Elsevier presentati, i ricercatori hanno trovato frasi per le quali non sono riusciti a dedurre alcun significato; riferimenti a letteratura inesistente; riferimenti a variabili e teoremi in formule che in realtà non compaiono nel materiale di supporto (suggerendo un’astrazione basata sul linguaggio, o ” allucinazione ” di dati apparentemente fattuali); e il riuso delle immagini senza il riconoscimento delle loro fonti (che i ricercatori criticano non dal punto di vista del diritto d’autore, ma piuttosto come indicatore di inadeguato rigore scientifico).
Errori di citazione
Le citazioni destinate a supportare gli argomenti in un articolo scientifico sono state trovate in molti degli esempi segnalati come “rotte o che portano a pubblicazioni non correlate”.
Inoltre, i riferimenti a “lavori correlati” apparentemente includono spesso autori che i ricercatori ritengono siano stati “allucinati” da un sistema in stile GPT.
Attenzione errante
Un altro difetto anche dei modelli linguistici più avanzati come il GPT-3 è la loro tendenza a perdere la concentrazione su un discorso lungo. I ricercatori hanno scoperto che i documenti contrassegnati spesso sollevano un argomento all’inizio del documento che in realtà non viene mai ripreso dopo che è stato inizialmente affrontato nelle note preliminari o altrove.
Teorizzano anche che alcuni degli esempi peggiori si verificano attraverso più viaggi del testo di partenza attraverso una serie di motori di traduzione, ognuno dei quali distorce ulteriormente il significato.
Fonti e ragioni
Nel tentativo di discernere cosa c’è dietro questo fenomeno, gli autori dell’articolo suggeriscono una serie di possibilità: che i contenuti delle cartiere vengano utilizzati come materiale di partenza, introducendo imprecisioni molto presto in un processo che inevitabilmente produrrà ulteriori imprecisioni; che strumenti di filatura di articoli come Spinbot vengono utilizzati per mascherare il plagio; e che la schiacciante pressione per pubblicare regolarmente sta portando i ricercatori con risorse insufficienti a utilizzare sistemi in stile GPT-3 per aumentare o generare interamente nuovi documenti accademici.
I ricercatori concludono con un invito all’azione per una maggiore supervisione e standard migliori in un’area dell’editoria accademica che, a quanto pare, sta dimostrando di diventare foraggio per la propria materia: i sistemi di apprendimento automatico. Invitano inoltre Elsevier e altri editori a introdurre procedure di screening e revisione più rigorose e criticano ampiamente gli standard e le pratiche attuali al riguardo, suggerendo che “l’ inganno con testi sintetici minaccia l’integrità della letteratura scientifica”.