Come i modelli linguistici hanno perfezionato il plagio a un’arte
Oggi, la maggior parte delle istituzioni utilizza software di corrispondenza del testo per contrastare il plagio.
I modelli linguistici della rete neurale (LM) sono in grado di produrre testo grammaticale e coerente. Ma l’originalità del testo che tali modelli sfornano è sospetta.
Quindi, questi LM sono semplicemente “pappagalli stocastici” che rigurgitano il testo o hanno davvero imparato a produrre strutture complesse che supportano una generalizzazione sofisticata?
Perché la novità è importante?
La novità di un testo generato ci dice quanto sia diverso dal training set. Studiare la novità dei LM è importante per due ragioni principali: i modelli dovrebbero apprendere la distribuzione della formazione, non solo memorizzare il set di formazione; è più probabile che i modelli che copiano semplicemente i dati di addestramento espongano informazioni riservate o riecheggino incitamenti all’odio.
I ricercatori della John Hopkins University, della New York University, di Microsoft Research e di Facebook AI Research, in un recente articolo , hanno proposto un metodo per misurare la novità del testo generato dai LM. Lo studio ha esaminato in che modo i LM riutilizzano il linguaggio in modi nuovi.
I modelli linguistici plagiano i dati di addestramento?
Per valutare la novità del testo generato, i ricercatori hanno introdotto un elenco di analisi (chiamato RAVEN) che copriva sia la struttura sequenziale che sintattica del testo. Hanno quindi applicato queste analisi a Transformer , Transformer-XL , LSTM ea tutte e quattro le dimensioni di GPT-2 .
Secondo le loro scoperte, tutti questi modelli sono stati in grado di dimostrare la novità in tutti gli aspetti della struttura. Hanno generato nuovi n -grammi, combinazioni morfologiche e strutture sintattiche. Il 74% delle frasi generate dal Transformer-XL aveva una struttura sintattica diversa dalle frasi di addestramento e GPT-2 è stato in grado di inventare parole originali (comprese inflessioni e derivazioni).
Detto questo, per n -grammi più piccoli, i modelli sono ancora meno nuovi rispetto alla linea di base (basata sul grado di duplicazione in un testo generato dal modello in un testo generato dall’uomo). Inoltre, vi sono prove occasionali di copie su larga scala. Ad esempio, GPT-2 tende a piratare passaggi di addestramento più grandi (più di 1.000 parole).
Tutto sommato, è lecito ritenere che i modelli del linguaggio neurale non si limitino a plagiare i dati di addestramento, ma utilizzino anche processi costruttivi per combinare parti familiari in modi nuovi.
Minaccia all’integrità accademica?
I modelli del linguaggio neurale sono così bravi a generare testo nuovo che è diventato difficile per le soluzioni di ML statistiche e tradizionali rilevare il plagio offuscato dalla macchina.
Gli assistenti di scrittura AI come GPT-3 di OpenAI sono incredibilmente semplici da usare. Puoi digitare un titolo e alcune frasi sull’argomento e GPT-3 inizierà automaticamente a compilare i dettagli. Il modello produce contenuti plausibili e output infinito e, soprattutto, consente di comunicare con lo “scrittore robot” per correggere gli errori.
L’efficienza deriva dalla dimensione sempre crescente dei dati di addestramento. Per contesto, l’intera Wikipedia (che consiste in oltre 6 milioni di articoli e 3,9 miliardi di parole) rappresenta solo lo 0,6% della dimensione dell’input per GPT-3.
Gli studi mostrano che un numero scioccante di studenti utilizza strumenti di parafrasi online come SpinBot e SpinnerChief per mascherare il testo plagiato. Tali strumenti utilizzano l’IA per alterare il testo (ad esempio sostituendo le parole con i loro sinonimi) per conferire al lavoro una parvenza di originalità.
L’uso di modelli di linguaggio neurale per la parafrasi è una tendenza recente e finora non ci sono abbastanza dati accumulati con cui addestrare i sistemi di rilevamento del plagio (PDS). Oggi, la maggior parte delle istituzioni utilizza software di corrispondenza del testo per contrastare il plagio. Gli strumenti sono efficaci nell’identificare il testo duplicato, ma faticano a rilevare parafrasi, traduzioni e altre forme astute di plagio.
Sistemi di rilevamento del plagio
La tecnologia di rilevamento del plagio sfrutta l’analisi del testo lessicale, sintattica, semantica e interlinguistica. Alcuni metodi si concentrano su caratteristiche non testuali, come immagini di citazioni accademiche e contenuto matematico, per scoprire il plagio. Nel frattempo, la maggior parte della ricerca si concentra sulla quantificazione del grado in cui due frasi sono simili tra loro per rilevare la parafrasi di testo assistita dall’IA.
Secondo un documento pubblicato dall’Università di Wuppertal nel 2021, ottenere dati di formazione aggiuntivi è la soluzione migliore per migliorare il rilevamento del testo parafrasato a macchina.