MIT: misurare la distorsione dei media nelle principali testate giornalistiche con l’apprendimento automatico

Uno studio del MIT ha utilizzato tecniche di apprendimento automatico per identificare frasi distorte in circa 100 dei più grandi e influenti organi di informazione negli Stati Uniti e oltre, tra cui 83 delle pubblicazioni di notizie cartacee più influenti. È uno sforzo di ricerca che mostra la strada verso sistemi automatizzati che potrebbero potenzialmente autoclassificare il carattere politico di una pubblicazione e offrire ai lettori una visione più profonda della posizione etica di uno sfogo su argomenti che potrebbero appassionare.

Il lavoro è incentrato sul modo in cui gli argomenti vengono affrontati con formulazioni particolari, come l’ immigrazione irregolare | Immigrato clandestino , feto | bambino non ancora nato , manifestanti | anarchici .

Il progetto ha utilizzato tecniche di elaborazione del linguaggio naturale (NLP) per estrarre e classificare tali istanze di linguaggio “caricato” (partendo dal presupposto che termini apparentemente più “neutrali” rappresentino anche una posizione politica) in una mappatura ampia che rivela pregiudizi di sinistra e di destra su oltre tre milioni di articoli provenienti da circa 100 testate giornalistiche, risultando in un panorama navigabile di pregiudizi delle pubblicazioni in questione.

Il documento proviene da Samantha D’Alonzo e Max Tegmark del Dipartimento di Fisica del MIT e osserva che una serie di recenti iniziative sul “controllo dei fatti”, sulla scia di numerosi scandali di “fake news”, possono essere interpretate come ipocrite e utili al cause di interessi particolari. Il progetto ha lo scopo di fornire un approccio più basato sui dati per studiare l’uso del pregiudizio e del linguaggio “influente” in un contesto di notizie apparentemente neutrale.


Elaborazione PNL
I dati di origine dello studio sono stati ottenuti dal database open source Newspaper3K e comprendevano 3.078.624 articoli ottenuti da 100 fonti di notizie dei media, inclusi 83 giornali. I giornali sono stati selezionati in base alla loro portata, mentre le fonti dei media online includevano anche articoli dal sito di analisi di notizie militari Defense One e Science .

Le fonti utilizzate nello studio.
Il documento riporta che il testo scaricato è stato “minimamente” pre-elaborato. Le citazioni dirette sono state eliminate, poiché lo studio è interessato alla lingua scelta dai giornalisti (anche se le selezioni delle citazioni sono di per sé un campo di studio interessante ).

L’ortografia britannica è stata modificata in americana per standardizzare il database, è stata rimossa tutta la punteggiatura e sono stati rimossi anche tutti i numeri tranne quelli ordinali. Le maiuscole della frase iniziale sono state convertite in lettere minuscole, ma tutte le altre maiuscole sono state mantenute.

Le prime 100.000 frasi più comuni sono state identificate e infine classificate, eliminate e unite in un elenco di frasi. Allo stesso modo, è stato eliminato tutto il linguaggio ridondante che è stato possibile identificare (come “Condividi questo articolo” e “articolo ripubblicato”). Variazioni tra frasi essenzialmente identiche (cioè “big tech” e “Big Tech”, “cybersecurity” e “cyber security”) sono state standardizzate.

‘Spiglianoci’
Il test iniziale era sull’argomento “Le vite dei neri contano” ed è stato in grado di discernere il bias delle frasi e i sinonimi validi tra i dati.

Componenti principali generalizzate per articoli su Black Lives Matter (BLM). Vediamo persone che partecipano ad azioni civili caratterizzate, letteralmente e figurativamente da sinistra a destra, come manifestanti, anarchici e, all’estrema destra dello spettro, come “rivoltosi”. I giornali che hanno originato la frase sono rappresentati nel riquadro di destra.
Mentre i “manifestanti” passano da “anarchici” a “rivoltosi” mentre scivoliamo lungo la posizione politica del punto vendita in questione, il documento osserva che la posizione di estrazione e analisi della PNL è ostacolata dalla pratica del “raccolta di noci” – dove un mezzo di comunicazione citerà una frase che è considerata valida da un diverso segmento politico della società e può (apparentemente) fare affidamento sui suoi lettori per vedere la frase in modo negativo. Il giornale cita “defund the police” come esempio.

Naturalmente, ciò significa che una frase “di sinistra” appare in un contesto altrimenti di destra e rappresenta una sfida insolita per un sistema di PNL che si basa su frasi codificate per fungere da significanti per posizioni politiche.

Tali frasi sono ‘bivalenti’ [SIC], mentre alcune altre frasi hanno una connotazione così universalmente negativa (cioè ‘infanticidio’) che sono sempre rappresentate come negative attraverso una serie di sbocchi.

La ricerca rivela anche mappature simili per argomenti “caldi” come l’aborto, la censura tecnologica, l’immigrazione negli Stati Uniti e il controllo delle armi.

Hobby Horses
Ci sono alcune controverse tendenze politiche nei media che non si dividono in modo prevedibile in questo modo, come il tema delle spese militari. Il giornale ha scoperto che la CNN “di sinistra” è finita accanto alla National Review e alla Fox News di destra su questo argomento.

In generale, tuttavia, la posizione politica può essere determinata da altre espressioni, come preferire l’espressione “complesso militare-industriale” a quella più orientata a destra “industria della difesa”. I risultati mostrano che il primo è utilizzato da punti vendita critici come Canary e American Conservative , mentre il secondo è utilizzato più spesso da Fox e CNN.

La ricerca stabilisce diverse altre progressioni dal linguaggio critico dell’establishment a quello pro-establishment, compresa la gamma da “ucciso a morte” al più passivo “l’uccisione di”; ‘detenuti criminali’ a ‘persone incarcerate’; e da “produttori di petrolio” a “big oil”.

Valent sinonimi con pregiudizio dell’establishment, dall’alto verso il basso.
La ricerca riconosce che gli sbocchi “si allontaneranno” dalla loro posizione politica di base, sia a livello linguistico (come l’uso di frasi bivalenti), sia per vari altri motivi. Ad esempio, la venerabile pubblicazione britannica di destra The Spectator , fondata nel 1828, presenta spesso e in modo prominente pensieri di sinistra che si oppongono al flusso politico generale del suo flusso di contenuti. Se questo viene fatto per un senso di imparzialità di segnalazione o per infiammare periodicamente i suoi lettori principali in tempeste di commenti che generano traffico è una questione di congetture e non è un caso facile per un sistema di apprendimento automatico che è alla ricerca di token chiari e coerenti.

Questi particolari “cavalli dell’hobby” e l’uso ambiguo di punti di vista “stridenti” tra le singole organizzazioni di notizie confondono in qualche modo la mappatura sinistra-destra che la ricerca alla fine offre, sebbene fornisca un’ampia indicazione di affiliazione politica.

 

Significato nascosto
Sebbene datato 2 settembre e pubblicato alla fine di agosto 2021, il documento ha ottenuto relativamente poca trazione. In parte ciò potrebbe essere dovuto al fatto che è improbabile che la ricerca critica rivolta ai media mainstream venga accolta con entusiasmo da essa; ma potrebbe anche essere dovuto alla riluttanza degli autori a produrre grafici chiari e univoci che stratificano dove si trovano pubblicazioni mediatiche influenti e potenti su varie questioni, insieme a valori aggregati che indicano la misura in cui una pubblicazione si inclina verso sinistra o verso destra. In effetti, gli autori sembrano impegnarsi a smorzare il potenziale effetto incendiario dei risultati.

Allo stesso modo, gli ampi dati pubblicati dal progetto mostrano i conteggi della frequenza degli incidenti di parole, ma sembrano essere anonimi, rendendo difficile ottenere un’immagine chiara del pregiudizio dei media tra le pubblicazioni studiate. Senza rendere operativo il progetto in qualche modo, questo lascia solo gli esempi selezionati presentati nel documento.

Studi successivi di questa natura sarebbero forse più utili se dovessero considerare non solo la formulazione utilizzata per gli argomenti, ma se l’argomento è stato trattato, dal momento che il silenzio la dice lunga , e ha in sé un carattere politico distinto che spesso parla a più oltre a limiti di budget o altri fattori pragmatici che possono influenzare la selezione delle notizie.

Tuttavia, lo studio del MIT sembra essere il più grande del suo genere fino ad oggi e potrebbe costituire la struttura per futuri sistemi di classificazione e persino tecnologie secondarie come i plug-in del browser che potrebbero avvisare i lettori casuali del colore politico della pubblicazione che stanno attualmente leggendo.

Bolle, bias e contraccolpi
Inoltre, dovrebbe essere considerato se tali sistemi aggraveranno ulteriormente uno degli aspetti più controversi dei sistemi di raccomandazione algoritmica: la tendenza a condurre uno spettatore in ambienti in cui non vede mai un punto di vista contrastante o stimolante, che probabilmente ridurrà ulteriormente il posizione del lettore su questioni fondamentali.

Che una tale bolla di contenuti sia o meno un “ambiente sicuro”, un impedimento alla crescita intellettuale o una protezione contro la propaganda parziale, è un giudizio di valore – una questione filosofica difficile da affrontare dal punto di vista meccanicistico e statistico dei sistemi di apprendimento automatico .

Inoltre, per quanto lo studio del MIT si sia preoccupato di lasciare che i dati definissero i risultati, la classificazione del valore politico delle frasi è inevitabilmente anche una sorta di giudizio di valore, e uno che non può facilmente resistere alla capacità del linguaggio di ricodificare tossici o controversi. contenuto in nuove frasi che non sono nel manuale, nelle regole del forum o nel database di formazione.

Se una codifica di questo tipo dovesse essere incorporata nei popolari sistemi online, sembra probabile che uno sforzo in corso per mappare la temperatura etica e politica dei principali organi di informazione potrebbe trasformarsi in una guerra fredda tra la capacità dell’IA di discernere i pregiudizi e la capacità degli editori di esprimere il proprio punto di vista in un linguaggio in evoluzione progettato per superare regolarmente la comprensione della semantica del machine learning.

 

Di ihal