Il problema con la moderazione dei contenuti basata su AI è l’incentivo non la tecnologia
Mentre discutiamo ancora una volta del ruolo della moderazione dei contenuti nell’eliminazione del terrorismo, dell’odio e di altri contenuti violenti e orribili dalle nostre piattaforme digitali, c’è stata una discussione considerevole su ciò che i nostri moderni sistemi di rimozione dei contenuti basati su intelligenza artificiale e firma sono in grado di fare. Data la mancanza di consapevolezza del pubblico su come funzionano questi sistemi e le loro capacità di produzione implementate, vale la pena esaminare più da vicino come funziona la moderazione dei contenuti automatizzata oggi e soprattutto il compromesso in termini di costi e la mancanza di incentivi per le piattaforme a rimuovere contenuti orribili traggono profitto monetariamente da tale materiale.
È importante fare un passo indietro e guardare a quale tecnologia è e non è capace di oggi quando si tratta di moderazione dei contenuti di immagini e video.
Al di fuori delle principali società di social media e dei loro collaboratori accademici, ci sono pochi che hanno esperienza nel mondo reale applicando algoritmi di riconoscimento delle immagini a contenuti globali che attraversano paesi e culture e quindi notevoli equivoci su come funzionano questi algoritmi e i loro punti di forza e limiti Il mondo reale.
In parte ciò è dovuto alle macchine di marketing delle aziende, che trascorrono la maggior parte dell’anno a sollecitare la straordinaria accuratezza dei loro strumenti di intelligenza artificiale, portando i giornalisti a mostrare come i loro modelli di riconoscimento delle immagini possono ora distinguere tra broccoli e marijuana. Quando le cose vanno male, c’è una giustapposizione stonata poiché quelle stesse aziende sottolineano improvvisamente quanto siano primitivi e limitati i loro algoritmi, prima di tornare indietro di qualche settimana dopo per pubblicizzarle ancora una volta in modo abbastanza infallibile da scannerizzare le loro piattaforme in produzione.
I nostri algoritmi di riconoscimento visivo basati su AI sono tutt’altro che infallibili. Tuttavia, sono molto più capaci di segnalare le rappresentazioni della violenza di quanto la maggior parte delle persone capisca.
Negli ultimi tre anni, il mio progetto GDELT open data ha scannerizzato oltre mezzo miliardo di immagini di notizie da tutto il mondo, per un totale di oltre triliardi di pixel, eseguendole tutte attraverso i più avanzati algoritmi di riconoscimento visivo disponibili in commercio, generando oltre 300 miliardi di punti dati che descrivono i loro contenuti per capire come le narrative visive si diffondono a livello globale. Le lezioni apprese da questa iniziativa ci dicono molto di ciò che questi strumenti sono veramente in grado di applicare alla produzione su scala globale attraverso le culture e le aree geografiche del mondo.
Forse la cosa più importante, queste lezioni ci ricordano l’influenza critica del compromesso in termini di costi.
Gli strumenti di riconoscimento visivo disponibili oggi sul mercato sono eccezionalmente efficaci nel selezionare non solo la presenza di armi in un’immagine o in una cornice video, ma identificando la loro precisa marca e modello e il punto in cui appaiono nell’immagine rispetto ad altri oggetti. Sono in grado di riconoscere la presenza di fluidi, persino tracce di dimensioni appena visibili a un osservatore umano e espressioni facciali e posizioni del corpo che suggeriscono circostanze violente o morbilità. Sono in grado di riconoscere non solo i danni strutturali, ma stimano se sia dovuto a cause naturali come il danneggiamento del vento, cause miste come il fuoco o cause umane come un attacco aereo militare. Possono anche mettere insieme tutti questi pezzi e stimare l’intensità “violenta” complessiva di un’immagine.
Insieme alle valutazioni visive, per i video e le registrazioni audio ci sono strumenti altamente precisi per riconoscere gli spari e le espressioni umane non verbali indicative della violenza. Ci sono persino modelli di IA che sono stati adattati per riconoscere la violenza dei videogiochi, piuttosto che le immagini del mondo reale che più sono addestrate sulle immagini notturne a infrarossi di bodycams.
Gli algoritmi possono innescarsi in modi inaspettati, come ad esempio la segnalazione di un’immagine di un mercato del pesce o dietro le quinte del reparto carne di un droghiere, anche se per una buona ragione, dato che questi filtri sono spesso addestrati alla violenza in tutte le sue forme, piuttosto che solo agli esseri umani . Anche qui gli algoritmi possono essere sintonizzati per segnalare solo tipi specifici di violenza.
È importante riconoscere che i nostri attuali algoritmi non sono certamente perfetti. Possono entrambi perdere il contenuto (falsi negativi) e segnalare in modo non corretto contenuti non correlati (falsi positivi). Tuttavia, tutti gli algoritmi di deep learning possono essere sintonizzati, sia attraverso la selezione dei dati di allenamento su cui sono costruiti, sia l’output delle loro varie informazioni di probabilità come punteggio di confidenza. Questi punteggi possono essere utilizzati per contrassegnare solo le immagini di cui l’algoritmo è assolutamente sicuro, rischiando di perdere materiale considerevole, ma consentendo una rimozione autonoma, mentre al tempo stesso segnalano contenuti a bassa probabilità per la revisione umana, assicurando che non manchi poco.
Dopo tre anni di scansione di immagini di notizie globali da quasi tutti i paesi del mondo, un aspetto fondamentale della scansione del progetto GDELT che utilizza tali strumenti è che sono molto più accurati di quanto il pubblico realizzi.
Quindi, perché continuano a mancare le cose?
La ragione risale a come sono sintonizzati e al contesto in cui vengono utilizzati.
La maggior parte degli algoritmi utilizzati per la scansione di produzione da piattaforme di social media sono sintonizzati per la velocità e le categorie di classificazione minime per ridurre il loro onere computazionale. Piuttosto che generare milioni di etichette categoriali e caratteristiche e le loro probabilità per ogni immagine e ogni fotogramma di ogni video, consentendo modifiche in tempo reale e dispacciamento a revisori umani per conferma, la maggior parte dei filtri di produzione utilizzati dalle principali piattaforme sociali tendono ad essere più vicini ai filtri binari che contrassegnano o meno un’immagine per rimozione / revisione, rendendo più difficile combinare insieme i punti di forza della macchina e dei revisori umani.
Forse la ragione principale è il contesto. Non tutta la violenza è vista attraverso la stessa lente. Un video di servizi di sicurezza governativi che sparano su manifestanti disarmati potrebbe essere qualcosa che la società ritiene sia importante pubblicizzare. I governi, d’altro canto, amerebbero sopprimere tali filmati, permettendo loro di negare le loro tattiche repressive come “notizie false”.
Dopotutto, negli Stati Uniti, è stato l’immaginario emerso dallo Stato del Kent il 4 maggio 1970 a galvanizzare l’opinione pubblica in un modo che nessuna semplice descrizione scritta del giorno avrebbe potuto fare.
Immaginate se il governo degli Stati Uniti fosse stato in grado di impedire la pubblicazione o la distribuzione di tutte le immagini di quel giorno, lasciando solo descrizioni testuali che potevano facilmente scartare come false.
Non è difficile immaginare che i governi russi o tailandesi utilizzino tali razionalizzazioni per vietare le riprese dei loro servizi di sicurezza usando la forza contro manifestanti pacifici e poi usando la mancanza di filmati disponibili per sostenere che gli eventi in questione non hanno mai avuto luogo.
Qui sta una delle grandi lotte delle piattaforme sociali. I loro algoritmi e revisori umani possono contrassegnare le immagini come raffiguranti la violenza, ma devono soppesare quelle determinazioni contro la questione se tale rappresentazione sia gratuita o documentaria.
I video dei cittadini che catturano l’uso della forza da parte degli agenti di polizia è forse il caso d’uso più comune che mette alla prova questi limiti. È un video rilasciato dalla famiglia di una vittima attraverso un’importante organizzazione per i diritti civili un video documentario che dovrebbe essere visibile agli altri per giudicare se stessi e utilizzare per ritenere la polizia responsabile o tutte le interazioni della polizia con il pubblico essere trattenute dal pubblico se ne descrivono forma di violenza, indipendentemente dai desideri della famiglia della vittima?
Storicamente, le organizzazioni dei media rispettabili e le agenzie governative sono state lasciate a prendere queste decisioni, ma sempre più oggi cadono su piattaforme sociali che potrebbero non avere alcun dettaglio dell’evento in questione.
Gli algoritmi AI sono eccezionalmente efficaci nel contrassegnare la violenza e le sue componenti, ma i revisori umani sono tenuti a determinare il contesto fondamentale di un’immagine o di un video.
Questo contesto si estende oltre i contenuti dell’immagine o del video e al contesto della sua distribuzione. Un video che documenta le forze governative che sparano contro i civili potrebbe essere considerato ammissibile per i distributori di notizie da distribuire, ma un cittadino filo-governativo che pubblica il video accanto a commenti che lodano le uccisioni o semplicemente promuove gli elementi violenti del video potrebbe essere considerato una violazione e rimosso.
Per dirla in modo più semplice, oggi abbiamo gli strumenti per scansionare automaticamente tutti i livestream su tutte le nostre piattaforme social mentre vengono trasmessi in tempo reale. Questi strumenti sono eccezionalmente in grado di contrassegnare un video nel momento in cui appare un’arma o un colpo di arma da fuoco o una violenza, interrompendolo dal punto di vista pubblico e rimandandolo per una immediata revisione umana. Un revisore potrebbe scegliere di embargo il video fino a quando non viene appreso altro e poi rilasciarlo se ritenuto appropriato o eliminare o inoltrare alle forze dell’ordine in tempo reale mentre gli eventi sono in corso.
Questi strumenti esistono e sono sufficientemente robusti se abbinati alla revisione umana da implementare oggi.
Eppure, ogni volta che ho chiesto a società di social media come Facebook sul perché non le usano, la risposta è sempre stata “nessun commento”.
Data la combinazione di tag GPS e geocodifica visiva, molti di questi video potrebbero essere geocodificati in tempo reale e la rappresentazione di armi o violenza nei pressi di una folla, in un luogo pubblico o in prossimità di una posizione sensibile potrebbe sottoposti immediatamente alle forze dell’ordine in pochi secondi , probabilmente salvando molte vite.
Combinando filtraggio in tempo reale automatizzato di livestream con una pausa per la revisione umana la violenza istante è raffigurata sarebbe equilibrare il tasso di falsi positivi dei sistemi AI e l’importanza del contesto con revisione umana.
Separato dal rilevamento contenuto, una volta un’immagine o un video è stato definitivamente identificato, il processo di eliminarlo da tutta una piattaforma sociale e per prevenire la Reupload è molto più semplice e meno computazionalmente intensive.
L’hashing del contenuto si riferisce alla creazione di una firma digitale che rappresenta in modo univoco un determinato contenuto. A differenza degli hash rigidi come CRC32 o MD5 che sono progettati per contrassegnare anche una differenza di un bit in un pezzo di contenuto, i tipi di hash utilizzati per la corrispondenza dei contenuti sono più sfumati, progettati per consentire un certo livello di differenza, ad esempio un’immagine ridimensionato o leggermente inclinato.
La corrispondenza dei contenuti è stata ampiamente utilizzata da anni come base per il modo in cui i siti combattono la violazione del copyright e la pornografia infantile. In entrambi i casi, i database di grandi firme vengono regolarmente aggiornati e qualsiasi contenuto caricato sulle piattaforme viene scansionato contro questi database, con le partite rifiutate e potenzialmente riferite alle forze dell’ordine.
Mentre ha sollecitato i suoi sforzi contro il terrorismo, Facebook si è a lungo rifiutato di rilasciare qualsiasi dettaglio reale dietro di loro, specialmente i loro falsi positivi.
La società ha riconosciuto che i suoi sforzi per limitare le immagini e i video del terrorismo si limitano quasi esclusivamente alla corrispondenza con un database di poco meno di 100.000 pezzi di contenuti in gran parte ISIS e Al Qaeda.
Nonostante la miriade di altri gruppi terroristici che hanno causato morte e distruzione in tutto il mondo, Facebook si è focalizzato molto strettamente su ISIS e Al Qaeda, probabilmente a causa delle pressioni dei governi occidentali, sebbene abbia rifiutato di commentare perché non enfatizza altri gruppi.
Il tipo di corrispondenza della firma del contenuto utilizzato dalle società di social media è di per sé straordinariamente robusto , in grado di segnalare anche tracce di contenuti originali sepolti sotto una valanga di altro materiale. Il problema è che le società di social media tipicamente regolano gli algoritmi per ridurre al minimo le corrispondenze false positive, piuttosto che accordarle per ottenere la corrispondenza massima, che può richiedere una maggiore revisione umana.
Tali algoritmi possono essere utilizzati per identificare clip di una frazione di un secondo fotogramma lungo o persino isolato da un video nascosto in un altro video. Possono essere sintonizzati per essere abbastanza robusti contro modifiche sostanziali come watermarking, skewing, cattura dello schermo e algoritmi di contro-firma.
Il problema è che, ancora una volta, le piattaforme social si basano sull’opzione di costo computazionale più basso. Gli algoritmi di corrispondenza delle firme possono essere regolati per fornire un’ampia latitudine nelle corrispondenze, fornendo una sostanziale robustezza contro le modifiche. Tuttavia, tale corrispondenza si sposta dal regno delle semplici ricerche di database a basso costo verso il punteggio di somiglianza delle immagini, che è molto più costoso e produce un aumento del tasso di falsi positivi che richiede una revisione umana aggiuntiva.
Gli strumenti di firma dei contenuti accoppiati con l’intelligenza artificiale sono straordinariamente potenti. Gli strumenti oggi sono in grado di riconoscere in una frazione di secondo che una porzione di un singolo fotogramma di un dato video è stata ritagliata e pesantemente modificata e quindi inserita digitalmente in un angolo di una fotografia in un altro punto del web.
Questi strumenti non sono più fantascienza, sono realtà commerciali.
È notevole, tuttavia, che anche le impronte digitali audiovisive combinate che vengono tipicamente utilizzate per tale robusto abbinamento di contenuti non siano state implementate fino a molto tempo dopo, notando che Facebook si espandeva solo alle impronte digitali audio dopo aver visto l’inevitabile aumento dei video catturati dallo schermo, che sono un approccio standard per sconfiggere gli algoritmi di corrispondenza dei contenuti di cui Facebook avrebbe dovuto essere a conoscenza. La società ha rifiutato di commentare il motivo per cui i suoi algoritmi di corrispondenza non sono riusciti a recuperare i depositi.
Oggi abbiamo gli strumenti per mettere in pausa un live streaming nell’istante in cui viene raffigurata un’arma o una violenza e inviarla per la revisione umana, anche dando la priorità al video in base al fatto se sembra essere girato in un luogo pubblico o vicino a una posizione sensibile, impedendo che sia visualizzato e avvisare le forze dell’ordine in tempo reale.
Per i contenuti nella lista nera, abbiamo algoritmi che sono estremamente robusti per la modifica e in grado di segnalare anche un piccolo frammento di un pezzo di contenuto che è stato ritagliato e pesantemente modificato per evitare il rilevamento.
Il problema è che questi approcci hanno notevoli costi computazionali associati a questi e, se usati in concomitanza con la revisione umana per assicurare la massima copertura, andrebbero a beneficio dei profitti delle aziende.
Il vero problema è che manca un incentivo a rimuovere tali contenuti.
Oggi Facebook affronta una crisi di contenuti terroristici attraverso la sua piattaforma. Tuttavia, secondo le leggi della maggior parte dei paesi in cui opera, deve affrontare poche responsabilità penali o civili per l’hosting e la promozione di tali contenuti.
Al contrario, se Facebook era sulla buona strada per diventare il nuovo Napster, con ogni nuovo blockbuster di Hollywood caricato per la visualizzazione gratuita sui suoi server, avrebbe delle conseguenze legali molto reali e delle passività finanziarie.
Questo è il motivo per cui le piattaforme social sono state estremamente aggressive nel controllare l’uso delle loro piattaforme per violazioni del copyright o contenuti illegali come la pornografia infantile.
Facebook si rende conto che non può dire a Hollywood che ci sono milioni di copie di ogni nuova versione disponibile gratuitamente sui suoi server, ma che sarebbe semplicemente troppo costoso per fare qualcosa a riguardo. La società riconosce che questo argomento semplicemente non volerebbe e quindi dedica le risorse necessarie per combattere le violazioni del copyright, indipendentemente dal costo.
Al contrario, il contenuto del terrorismo in sé non è in realtà illegale nella maggior parte dei paesi occidentali e quindi la società non si trova di fronte a restrizioni legali simili sull’hosting dei contenuti.
Di fatto, perversamente, le aziende traggono profitto da terrorismo , incitamento all’odio e genocidio . Quando è stato chiesto in diverse occasioni se Facebook considerasse il rimborso delle entrate pubblicitarie che guadagna su tutti i post, le visualizzazioni di contenuti e gli impegni riguardanti il terrorismo, l’odio e il linguaggio violento che identifica e rimuove come una violazione delle sue politiche, l’azienda si è rifiutata di commentare ogni volta.
Per dirla in modo più esplicito, Facebook trae profitto dall’orrore, guadagnando denaro da ogni atrocità che si verifica quando persone da tutto il mondo arrivano alla sua piattaforma in seguito o addirittura la usano come uno strumento per commettere quelle atrocità, quindi ha poco incentivo a rimuovere esso.
Ci sono tre ragioni principali per cui le piattaforme sociali non fanno di più per combattere gli usi orribili delle loro piattaforme.
Il primo è che qualsiasi tipo di filtro dei contenuti costa denaro. Parliamo di potenza di calcolo come infinita nell’era del web, ma gli algoritmi di intelligenza artificiale richiedono grandi quantità di hardware costoso per funzionare, mentre i revisori umani costano ancora di più. Le aziende disprezzano di dedicare qualcosa di più del minimo assoluto a un compito che non contribuisce al loro profitto.
Il secondo è che non hanno alcun incentivo a rimuovere atrocità dalle loro piattaforme. A differenza dei contenuti protetti da copyright e di alcune classi di materiale illegale, le raffigurazioni del terrorismo non sono illegali nella maggior parte dei paesi. Finché la legge statunitense o dell’UE non tratta la pubblicazione di contenuti di terrorismo nello stesso modo in cui viola la violazione del copyright, è improbabile che si verifichino cambiamenti reali.
In effetti, è stato solo quattro anni fa che Twitter ha rimproverato la richiesta del Congresso di fare di più per combattere l’uso terroristico della sua piattaforma. Solo dopo intense pressioni del governo ha invertito la sua posizione e ora regolarmente sollecita i suoi sforzi per rimuovere il contenuto del terrorismo. Allo stesso modo, dopo anni di discussioni, non è bastato fare altro per combattere i discorsi di incitamento all’odio, Facebook si è mossa rapidamente per costruire nuovi strumenti tecnici e ampliare in modo massiccio il personale di moderazione dopo che la Germania ha approvato nuove leggi che governano le responsabilità delle piattaforme sociali per l’incitamento all’odio.
In breve, l’intervento del governo funziona.
Tuttavia, è la terza ragione che è forse la più importante per cui le piattaforme social non fanno di più per rimuovere contenuti orribili dalle loro piattaforme: ne traggono profitto. C’è un motivo per cui aziende come Facebook si rifiutano di commentare ogni volta che viene loro chiesto se sarebbero disposti a rimborsare i soldi guadagnati con il terrorismo, l’incitamento all’odio o altro uso violento o illegale delle loro piattaforme. Se Facebook è stato costretto a rimborsare le entrate pubblicitarie che ha guadagnato per ogni post che rimuove e forse anche pagare una multa significativa al governo per ogni post di violazione, il contenuto non sarebbe più un centro di profitto, ma piuttosto qualcosa con responsabilità molto reali, molto mentre rimuovono il contenuto protetto da copyright che altrimenti attirerebbe grandi quantità di visitatori.
Prevedibilmente, sia Facebook che Twitter hanno rifiutato di rispondere a tutte le domande poste loro.
La capacità delle aziende di rifiutarsi semplicemente di rispondere a qualsiasi domanda ogni volta che le loro piattaforme vengono utilizzate per il danno è forse la ragione più importante di tutto ciò che non fanno più nulla: non devono farlo. Ogni volta che si verifica un’atrocità, le piattaforme possono semplicemente emettere scuse generiche e andare avanti, senza alcun timore di intervento del governo, responsabilità legale o finanziaria o reazione dell’utente.
Mettendo tutto questo insieme, oggi abbiamo la tecnologia per fare molto meglio a rimuovere contenuti orribili dalle nostre piattaforme social. Gli strumenti esistono per mettere in pausa i video in streaming delle armi istantanee o dei contenuti violenti e per impedire la condivisione anche di versioni fortemente modificate o remixate di contenuti violenti. Tutti questi strumenti esistono, ma non abbiamo la volontà di dispiegarli, dati i loro costi, la mancanza di incentivi legali per combattere tali contenuti e il fatto che generano entrate monetarie reali per piattaforme sociali.
Alla fine, finché non affronteremo questi tre problemi, semplicemente non vedremo nessuna azione significativa dalle piattaforme sociali nel combattere l’uso orribile dei loro megafoni digitali.