Gli attori dannosi trovano costantemente modi per aggirare le politiche delle piattaforme e ingannare i loro sistemi, e il 2020 non ha fatto eccezione. Secondo il tracker di molestie online L1ght, nelle prime settimane della pandemia, c’è stato un aumento del 40% della tossicità sui servizi di gioco popolari tra cui Discord. Gli esperti antifrode hanno assistito a un aumento di vari tipi di frode lo scorso anno su piattaforme online, comprese le frodi bancarie e assicurative. E da marzo 2020 ad aprile 2020, IBM ha osservato un aumento di oltre il 6.000% dello spam correlato a COVID-19.
Yelp non è stato immune dall’aumento dei contenuti digitali problematici. Con un aumento delle cancellazioni di viaggi, la società ha notato un aumento delle immagini caricate con testo per promuovere numeri di assistenza clienti falsi e altro spam promozionale. Per mitigare il problema e automatizzare una soluzione che si basa sulla segnalazione manuale dei contenuti dalla sua comunità di utenti, Yelp afferma che i suoi ingegneri hanno creato un sistema interno personalizzato utilizzando algoritmi di apprendimento automatico per analizzare centinaia di migliaia di caricamenti di foto al giorno, rilevando inappropriati e foto contenenti spam su larga scala.
Automatizzazione della moderazione dei contenuti
L’uso dell’intelligenza artificiale e dell’apprendimento automatico da parte di Yelp va dalla pubblicità ai consigli su ristoranti, saloni e hotel. La funzione Raccolte dell’app sfrutta una combinazione di apprendimento automatico, ordinamento algoritmico e cura manuale per mettere gli hotspot locali a portata di mano degli utenti. (L’analisi delle immagini basata sull’apprendimento approfondito identifica automaticamente il colore, la consistenza e la forma degli oggetti nelle foto inviate dagli utenti, consentendo a Yelp di prevedere attributi come “buono per i bambini” e “l’ambiente è di classe”.) Yelp ottimizza le foto nelle schede delle attività commerciali per offrire l’immagine più pertinente per la navigazione di potenziali clienti. E gli inserzionisti possono scegliere di avere un sistema di intelligenza artificiale che consiglia le foto e rivede i contenuti da utilizzare negli annunci banner in base al loro “impatto” con gli utenti.
Ci sono anche piatti popolari, la funzione di Yelp che evidenzia il nome, le foto e le recensioni delle voci di menu del ristorante più ordinate. Più di recente, la piattaforma ha aggiunto strumenti per aiutare la riapertura delle aziende a indicare se stanno adottando misure come imporre il distanziamento e la sanificazione, impiegando una combinazione di moderazione umana e apprendimento automatico per aggiornare le sezioni con le informazioni che le aziende hanno pubblicato altrove.
La creazione del nuovo sistema di moderazione dei contenuti è stata più impegnativa rispetto ai precedenti progetti di intelligenza artificiale perché gli ingegneri di Yelp avevano un set di dati limitato con cui lavorare, ha detto la società a VentureBeat. La maggior parte degli algoritmi di apprendimento automatico viene addestrata sui dati di input annotati per un particolare output fino a quando non sono in grado di rilevare le relazioni sottostanti tra gli input ei risultati di output. Durante la fase di addestramento, il sistema viene alimentato con set di dati etichettati, che gli dicono quale output è correlato a ciascun valore di input specifico.
Il corpora annotato di spam di Yelp era limitato prima della pandemia e doveva essere aumentato nel tempo. “In definitiva, i nostri ingegneri hanno sviluppato un approccio multimodello a più fasi per spam promozionale e contenuti inappropriati”, ha affermato un portavoce. In questo contesto, “inappropriato” si riferisce allo spam che è in conflitto con le Linee guida per i contenuti di Yelp, comprese nudità suggestive o esplicite (ad es. Vestiti che rivelano, attività sessuale), violenza (armi, gesti offensivi, simboli di odio) e sostanze come droghe, tabacco e alcol.
Yelp doveva anche assicurarsi che il sistema comprendesse il contesto dei contenuti caricati. A differenza della maggior parte dei sistemi di intelligenza artificiale, gli esseri umani comprendono il significato di testo, video, audio e immagini insieme nel contesto. Ad esempio, dato un testo e un’immagine che sembrano innocui se considerati separati (ad esempio, “Guarda quante persone ti amano” e un’immagine di un deserto arido), le persone riconoscono che questi elementi assumono connotazioni potenzialmente dannose quando sono accoppiati o giustapposti.
Struttura in due parti
La soluzione anti-spam di Yelp è un framework in due parti che identifica innanzitutto le foto che molto probabilmente contengono spam. Durante la seconda fase, il contenuto contrassegnato viene eseguito attraverso modelli di apprendimento automatico ottimizzati per la precisione, che inviano solo una piccola quantità di foto per essere esaminati da moderatori umani. Una serie di euristiche si affianca ai modelli per accelerare la pipeline e reagire rapidamente a nuovi potenziali spam e contenuti inappropriati.
“Abbiamo utilizzato un set di dati personalizzato di decine di migliaia di foto di Yelp e applicato il transfer learning per mettere a punto modelli pre-addestrati su larga scala”, ha detto a VentureBeat via e-mail Vivek Raman, vicepresidente dell’ingegneria per la fiducia e la sicurezza di Yelp. “I modelli sono stati addestrati su istanze accelerate dalla GPU, il che ha reso molto efficiente il processo di apprendimento del trasferimento, rispetto all’addestramento di una rete neurale profonda da zero. Le prestazioni dei modelli in produzione vengono monitorate per cogliere eventuali derive e consentirci di reagire rapidamente a qualsiasi minaccia in evoluzione “.
In caso di spam promozionale, il sistema cerca elementi grafici semplici contenenti testo o logo. Il contenuto inappropriato è un po ‘più complesso, quindi il framework sfrutta una rete neurale residua per identificare le foto che violano le politiche di Yelp e un modello di rete neurale convoluzionale per individuare le foto contenenti persone. Le reti neurali residue si basano su costrutti noti dalle cellule piramidali nella corteccia cerebrale, che trasformano gli input in output di potenziali d’ azione . Le reti neurali convoluzionali, che sono similmente ispirate da processi biologici, sono abili nell’analisi delle immagini visive.
Quando il sistema rileva lo spam promozionale, estrae il testo dalle foto utilizzando un’altra rete neurale di apprendimento profondo ed esegue la classificazione tramite un’espressione regolare e un servizio di elaborazione del linguaggio naturale. Per i contenuti inappropriati, viene utilizzato un modello di deep learning per aiutare il framework a calibrare la precisione in base ai punteggi di affidabilità e a una serie di euristiche di contesto, come la categoria aziendale, che tengono conto di dove viene visualizzato il contenuto.
Combattere gli avversari
L’euristica di Yelp aiuta a combattere gli spammer ricorrenti. Le foto contrassegnate come spam vengono tracciate da un servizio di corrispondenza fuzzy in modo che se gli utenti tentano di ricaricare lo spam, viene automaticamente scartato dal sistema. Se non è presente una corrispondenza di spam simile, potrebbe finire nella coda del team di moderazione dei contenuti.
In attesa della moderazione, le immagini vengono nascoste agli utenti in modo che non siano esposte a contenuti potenzialmente pericolosi. E il team di moderazione dei contenuti ha la capacità di agire sui profili degli utenti invece che sui singoli contenuti. Ad esempio, se si scopre che un utente genera spam, il suo profilo utente viene chiuso e tutto il contenuto associato viene rimosso.
L’intelligenza artificiale non è affatto un proiettile d’argento quando si tratta di moderazione dei contenuti. I ricercatori hanno documentato casi in cui strumenti automatizzati di moderazione dei contenuti su piattaforme come YouTube hanno erroneamente classificato i video pubblicati da organizzazioni non governative che documentano violazioni dei diritti umani da parte dell’ISIS in Siria come contenuti estremisti e li hanno rimossi. Uno studio della New York University stima che i soli sistemi di intelligenza artificiale di Facebook commettono circa 300.000 errori di moderazione dei contenuti al giorno e che i post problematici continuano a passare attraverso i filtri di Facebook.
Raman riconosce che i sistemi di moderazione dell’IA sono suscettibili di pregiudizi, ma afferma che gli ingegneri di Yelp hanno adottato misure per mitigarli. “[I pregiudizi] possono derivare dai pregiudizi consci o inconsci dei loro progettisti, o dagli stessi set di dati … Durante la progettazione di questo sistema, abbiamo utilizzato sofisticate tecniche di campionamento specificamente per produrre set di addestramento bilanciati con l’obiettivo esplicito di ridurre il bias nel sistema. Addestriamo anche il modello per la precisione per ridurre al minimo gli errori o la probabilità di rimuovere i falsi positivi “.
Raman afferma inoltre che il nuovo sistema di Yelp potenzia, non sostituisce, il suo team di moderatori umani. L’obiettivo è dare la priorità agli elementi che i team di moderazione – che hanno il potere di ripristinare i contenuti contrassegnati in modo errato – esaminano piuttosto che rimuovere lo spam in modo proattivo.
“Sebbene sia importante sfruttare la tecnologia per creare processi più efficienti e gestire i contenuti su larga scala, è ancora più importante creare controlli ed equilibri attraverso la moderazione umana”, ha affermato Raman. “Le pagine aziendali che ricevono meno traffico hanno meno probabilità che un consumatore o il proprietario di un’azienda rilevi e segnali il contenuto ai nostri moderatori, quindi il nostro flusso di lavoro di moderazione delle foto aiuta a eliminare i contenuti sospetti in modo più scalabile.”