Uno “tsunami” di contenuti AI a basso costo potrebbe causare problemi ai motori di ricerca

Durante lo scorso anno, i sistemi di intelligenza artificiale hanno fatto passi da gigante nella loro capacità di generare testi convincenti , sfornando tutto, dai testi delle canzoni ai racconti. Gli esperti hanno avvertito che questi strumenti potrebbero essere usati per diffondere disinformazione politica , ma c’è un altro obiettivo che è ugualmente plausibile e potenzialmente più redditizio: giocare a Google.

Invece di essere usato per creare notizie false, l’IA potrebbe sfornare infiniti blog, siti Web e spam marketing. Il contenuto sarebbe economico da produrre e riempito con parole chiave pertinenti. Ma come la maggior parte dei testi generati dall’IA, avrebbe solo un significato superficiale, con poca corrispondenza con il mondo reale. Sarebbe l’equivalente di informazioni di calorie vuote, ma ancora potenzialmente difficile per un motore di ricerca di distinguere dalla cosa reale.

Basta dare un’occhiata a questo post sul blog rispondendo alla domanda: “Quali filtri fotografici sono i migliori per Instagram Marketing?” A prima vista sembra legittimo, con una blanda introduzione seguita da citazioni da vari tipi di marketing. Ma leggi un po ‘più da vicino e ti rendi conto che fa riferimento a riviste, persone e, soprattutto, filtri di Instagram che non esistono:

Potresti non pensare che un pennello mumford sia un buon filtro per una storia di Insta. Non è così, ha dichiarato Amy Freeborn, direttore delle comunicazioni della rivista National Recording Technician. Le scelte di Freeborn includono Finder (una striscia blu che fa apparire il suo account come un vecchio blocco di pixel), Plus e Cartwheel (che dice rende la tua immagine come una mappa topografica di una città.

Il resto del sito è pieno di post simili, che trattano argomenti come ” Come scrivere i titoli di Clickbait ” e ” Perché la Content Strategy è importante? “Ma ogni post è generato da AI, fino alle immagini del profilo degli autori. È tutta la creazione dell’agenzia di content marketing Fractl, che afferma che è una dimostrazione delle “enormi implicazioni” che la generazione di testi AI ha per il business dell’ottimizzazione dei motori di ricerca, o SEO.

“RITENIAMO CHE SIA UN ARGOMENTO INCREDIBILMENTE IMPORTANTE CON DISCUSSIONI TROPPO POCO ATTUALI”.
“Poiché [i sistemi AI] consentono la creazione di contenuti su scala essenzialmente illimitata e il contenuto che gli esseri umani e i motori di ricerca avranno difficoltà a discernere […] riteniamo che sia un argomento incredibilmente importante con discussioni fin troppo ridotte al momento”, partner di Fractl Kristin Tynski dice a The Verge .

Per scrivere i post del blog, Fractl ha utilizzato uno strumento open source chiamato Grover , realizzato dall’Istituto Allen per l’Intelligenza Artificiale. Tynski dice che la compagnia non sta usando l’intelligenza artificiale per generare post per i clienti, ma questo non significa che gli altri non lo faranno. “Penso che vedremo quello che abbiamo sempre visto”, dice. “I blackhats useranno tattiche sovversive per ottenere un vantaggio competitivo.”

La storia del SEO certamente supporta questa previsione. È sempre stato un gioco del gatto e del topo, con giocatori senza scrupoli che cercano qualsiasi metodo possibile per attirare il maggior numero possibile di bulbi oculari mentre i guardiani come Google ordinano il grano dalla pula.

Come spiega Tynski in un suo post sul blog , esempi passati di questa dinamica includono la tendenza “article spinning”, che ha avuto inizio 10-15 anni fa. Gli spinners di articoli usano strumenti automatici per riscrivere il contenuto esistente; trovare e sostituire le parole in modo che la materia ricostituita apparisse originale. Google e altri motori di ricerca hanno risposto con nuovi filtri e metriche per estirpare questi blog pazzo-lib, ma difficilmente avrebbe potuto essere risolto durante la notte.

I GENERATORI DI TESTO A BASSO COSTO DI AI POTREBBERO CREARE UNO “TSUNAMI” DI SPAM E CONTENUTI NON VALIDI
La generazione di testi di intelligenza artificiale renderà l’articolo “un gioco da ragazzi”, scrive Tynski, consentendo “un enorme tsunami di contenuti generati dal computer in ogni nicchia immaginabile”.

Mike Blumenthal, consulente ed esperto SEO, afferma che questi strumenti attireranno sicuramente gli spammer, soprattutto considerando la loro capacità di generare testo su vasta scala. “Il problema che il contenuto scritto da IA ​​presenta, almeno per la ricerca sul Web, è che può potenzialmente ridurre il costo di questa produzione di contenuti”, afferma Blumenthal a The Verge .

E se l’obiettivo degli spammer è semplicemente quello di generare traffico, anche gli articoli di notizie false potrebbero essere perfetti anche per questo. Sebbene spesso ci preoccupiamo delle motivazioni politiche dei commercianti di notizie false, la maggior parte delle interviste con le persone che creano e condividono questo contesto dichiarano di farlo per le entrate pubblicitarie . Ciò non impedisce che sia politicamente dannoso.

IN QUESTO MOMENTO, INDIVIDUARE UN FALSO TESTO AI È ABBASTANZA SEMPLICE
La domanda chiave, quindi, è: possiamo rilevare in modo attendibile il testo generato da AI? Rowan Zellers dell’Allen Institute for AI dice che la risposta è “sì”, almeno per ora. Zellers e i suoi colleghi sono stati responsabili della creazione di Grover, lo strumento utilizzato da Fractl per i suoi falsi post sui blog, e sono stati anche in grado di progettare un sistema in grado di individuare il testo generato da Grover con una precisione del 92%.

“Siamo molto lontani dall’intelligenza artificiale di generare interi articoli di notizie che non sono rilevabili”, ha detto Zellers a The Verge . “Così ora, nella mia mente, è l’opportunità perfetta per i ricercatori di studiare questo problema, perché non è totalmente pericoloso.”

Individuare il falso testo AI non è troppo difficile, dice Zellers, perché ha un numero di tell linguistici e grammaticali. Egli dà l’esempio della tendenza dell’IA a riutilizzare certe frasi e nomi. “Ripetono le cose … perché è più sicuro farlo piuttosto che inventare una nuova entità”, dice Zellers. È come un bambino che impara a parlare; trottare ripetutamente le stesse parole e frasi, senza considerare i rendimenti decrescenti.

Tuttavia, come abbiamo visto con i deepfake visivi, solo perché siamo in grado di costruire una tecnologia che rileva questo contenuto, ciò non significa che non sia un pericolo . Integrare i rilevatori nell’infrastruttura di Internet è un compito enorme, e la scala del mondo online significa che persino i rivelatori con livelli di precisione elevati faranno un numero considerevole di errori.

Google non ha risposto alle domande su questo argomento, compresa la questione se stia funzionando o meno su sistemi in grado di individuare il testo generato da AI. (È una buona scommessa che sia, però, considerando che gli ingegneri di Google sono all’avanguardia in questo campo.) Invece, la società ha inviato una risposta standard dicendo che sta combattendo lo spam da decenni e tiene sempre le ultime tattiche .

STIAMO GIÀ VOLTANDO LE SPALLE AI MOTORI DI RICERCA
L’esperto SEO Blumenthal è d’accordo, e afferma che Google ha da tempo dimostrato di poter reagire a “un panorama tecnico in evoluzione”. Ma dice anche che un cambiamento nel modo in cui le informazioni online possono rendere lo spam AI meno un problema.

Sempre più ricerche sul web avvengono tramite proxy come Siri e Alexa, afferma Blumenthal, il che significa che i gatekeeper come Google devono solo generare “una (o due o tre) grandi risposte” piuttosto che dozzine di link pertinenti. Naturalmente, questa enfasi sull’unica risposta vera ha i suoi problemi , ma certamente riduce al minimo il rischio di spam ad alto volume.

Il gioco finale di tutto questo potrebbe essere ancora più interessante. La generazione di testo AI sta avanzando in termini di qualità estremamente rapidamente, e gli esperti del settore pensano che potrebbe portare a scoperte incredibili. Dopotutto, se siamo in grado di creare un programma in grado di leggere e generare testo con accuratezza a livello umano, potrebbe rimpinzarsi su Internet e diventare l’ultimo assistente AI.

“Potrebbe essere il caso che nei prossimi anni questa tecnologia diventi così straordinariamente buona, che il contenuto generato dall’IA fornisca un valore quasi umano o persino umano”, dice Tynski. Nel qual caso, dice, facendo riferimento a un fumetto Xkcd , sarebbe “risolto il problema”. Perché se hai creato un’intelligenza artificiale in grado di generare un testo corretto dal punto di vista fisico indistinguibile dai contenuti scritti dagli umani, perché preoccuparsi con gli umani ?

Di ihal