Anche la migliore intelligenza artificiale per individuare le notizie false è ancora terribile
Dovrebbe essere possibile identificare automaticamente le fonti di notizie dubbie – ma avremo bisogno di molti più dati
Da quando Mark Zuckerberg ha promesso al Congresso che l’intelligenza artificiale potrebbe aiutare a risolvere il problema della falsa notizia, ha rivelato poco in termini di come . Una nuova ricerca ci avvicina di un passo alla conclusione.
In un ampio studio che verrà presentato in una conferenza a fine mese, i ricercatori del MIT, Qatar Computing Research Institute (QCRI) e dell’Università di Sofia in Bulgaria hanno testato oltre 900 possibili variabili per prevedere l’attendibilità di un media outlet – probabilmente il set più grande mai proposto .
I ricercatori hanno quindi addestrato un modello di apprendimento automatico su diverse combinazioni delle variabili per vedere quale avrebbe prodotto i risultati più accurati. Il miglior modello ha etichettato accuratamente le notizie con una “bassa”, “media” o “alta” realtà solo il 65% delle volte.
Questo è lontano da un successo strepitoso. Ma gli esperimenti rivelano cose importanti su ciò che sarebbe necessario per esternalizzare il nostro fact-checking su una macchina. Preslav Nakov, uno scienziato senior di QCRI e uno dei ricercatori dello studio, afferma di essere ottimista sul fatto che le fonti di notizie false possano essere automaticamente individuate in questo modo.
Ma ciò non significa che sarà facile.
Metodo per la pazzia
Nell’esplosione della ricerca sul rilevamento delle falsificazioni dopo la campagna presidenziale statunitense del 2016, sono emersi quattro principali approcci: il fact-checking delle rivendicazioni individuali, la rilevazione di articoli falsi, la caccia ai troll e la misurazione dell’affidabilità delle fonti di notizie. Nakov e il resto del team hanno scelto di concentrarsi sul quarto perché si avvicina maggiormente all’origine della disinformazione. È stato anche studiato meno.
Precedenti studi hanno cercato di caratterizzare l’affidabilità di una fonte di notizie dal numero di rivendicazioni corrispondenti o in conflitto con affermazioni già verificate. In altre parole, una macchina paragonerebbe la storia delle affermazioni fattuali fatte da un comunicato stampa contro le conclusioni di siti come Snopes o PolitiFact. Il meccanismo, tuttavia, si basa sulla verifica dei fatti umani e valuta la storia dello sbocco, non il presente immediato. Nel momento in cui le ultime affermazioni sono state verificate manualmente, “è già troppo tardi”, afferma Nakov.
Per individuare una fonte di notizie fasulle in tempo reale, Nakov ei suoi collaboratori hanno addestrato il loro sistema usando variabili che potevano essere tabulate indipendentemente dai controllori dei fatti umani. Queste includevano analisi del contenuto, come la struttura della frase dei titoli e la parola diversità negli articoli; indicatori generali del sito, come la struttura dell’URL e il traffico del sito web; e misure dell’influenza dello sbocco, come il suo impegno sui social media e la pagina di Wikipedia, se ce ne sono.
Per selezionare le variabili, i ricercatori hanno fatto affidamento su ricerche precedenti: studi precedenti hanno dimostrato che gli articoli di notizie false tendono ad avere scelte di parole ripetitive, ad esempio, e su nuove ipotesi.
Testando diverse combinazioni di variabili, i ricercatori sono stati in grado di identificare i migliori predittori per l’affidabilità di una fonte di notizie. Ad esempio, se un punto vendita avesse una pagina di Wikipedia, aveva un potere predittivo fuori misura; il traffico dell’outlet, al contrario, non ne aveva nessuno. L’esercizio ha aiutato i ricercatori a determinare ulteriori variabili che potrebbero esplorare in futuro.
Dati affamati
Ma c’è un altro ostacolo: una carenza di dati di addestramento – quello che Nakov chiama la “verità fondamentale”.
Per la maggior parte delle attività di apprendimento automatico, è abbastanza semplice annotare i dati di allenamento. Se desideri creare un sistema che rilevi articoli relativi agli sport, puoi facilmente etichettare gli articoli come correlati o non correlati a quell’argomento. Quindi si alimenta il set di dati in una macchina in modo che possa apprendere le caratteristiche di un articolo sportivo.
Ma etichettare i media con alta o bassa realtà è molto più sensibile. Deve essere fatto da giornalisti professionisti che seguono metodologie rigorose ed è un processo che richiede tempo. Di conseguenza, è difficile creare un solido corpus di dati di addestramento, che è in parte il motivo per cui l’accuratezza del modello dello studio è così bassa. “Il modo più ovvio per aumentare la precisione è ottenere maggiori dati di allenamento”, afferma Nakov
Attualmente, Media Bias Fact Check, l’organizzazione scelta per fornire la “verità fondamentale” per la ricerca, ha valutato 2.500 fonti di media – una scarsità di termini di apprendimento automatico. Ma Nakov dice che il database dell’organizzazione sta crescendo rapidamente. Oltre a ottenere più dati di formazione, i ricercatori stanno anche cercando di migliorare le prestazioni del loro modello con più variabili, alcune delle quali descrivono la struttura del sito Web, se dispone di informazioni di contatto e dei suoi modelli di pubblicazione e cancellazione dei contenuti.
Sono anche nelle prime fasi della costruzione di una piattaforma di aggregazione di notizie che fornisce ai lettori importanti spunti per l’affidabilità di ogni storia e fonte condivisa.
Nonostante il lavoro da svolgere, Nakov ritiene che tale tecnologia possa aiutare a risolvere l’epidemia di falsi notizia in tempi relativamente brevi se piattaforme come Facebook e Twitter esercitano seriamente lo sforzo. “È come combattere lo spam”, ha scritto in un messaggio su Skype. “Non smetteremo mai le notizie false, ma possiamo metterle sotto controllo.”