Ricercatori olandesi hanno sviluppato un nuovo metodo di apprendimento automatico in grado di distinguere i contenuti sponsorizzati o altrimenti a pagamento all’interno delle piattaforme di notizie, con una precisione superiore al 90%, in risposta al crescente interesse degli inserzionisti per formati pubblicitari “nativi” difficili da distinguere dalla produzione giornalistica “reale”.

Il nuovo documento , intitolato Distinguishing Commercial from Editorial Content in News , proviene da ricercatori dell’Università di Leiden.

Sottografici commerciali (rosso) ed editoriali (blu) emersi dall’analisi dei dati. Fonte: https://arxiv.org/pdf/2111.03916.pdf
Gli autori osservano che sebbene pubblicazioni più serie, che possono dettare più facilmente termini agli inserzionisti, faranno uno sforzo ragionevole per distinguere i “contenuti dei partner” dalla serie generale di notizie e analisi, gli standard si stanno lentamente ma inesorabilmente spostando verso una maggiore integrazione tra e team commerciali su un punto vendita, che considerano un trend allarmante e negativo.

‘La capacità di mascherare i contenuti, volenti o nolenti, e la probabilità che i pubbliredazionali non vengano riconosciuti come tali anche se adeguatamente etichettati è significativa. Gli esperti di marketing lo chiamano nativo [pubblicità] per un motivo.’

Alcuni esempi attuali di pubblicità nativa, chiamati variamente “contenuti dei partner”, “contenuti di marca” e molti altri appellativi progettati per oscurare sottilmente la distinzione tra contenuti nativi e posizionati commercialmente nelle piattaforme giornalistiche.
Il lavoro è stato svolto nell’ambito di un’indagine più ampia sulla cultura dell’informazione in rete presso ACED Reverb Channel , con sede ad Amsterdam, che si concentra sull’analisi basata sui dati delle tendenze giornalistiche in evoluzione.

Acquisizione di dati
Per sviluppare i dati di origine per il progetto, gli autori hanno utilizzato 1.000 articoli e 1.000 pubbliredazionali da quattro testate olandesi e li hanno classificati in base alle loro caratteristiche testuali. Poiché il set di dati era di dimensioni relativamente modeste, gli autori hanno evitato approcci su larga scala come BERT e hanno invece valutato l’efficacia di framework di apprendimento automatico più classici, tra cui Support Vector Machine (SVM), LinearSVC , Decision Tree , Random Forest , K- Vicino più vicino (K-NN), Discesa gradiente stocastico (SGD) e Naïve Bayes .

Il corpus di Reverb Channel è stato in grado di fornire i 1.000 articoli “dritti” necessari, ma gli autori hanno dovuto eliminare i pubbliredazionali direttamente dai quattro siti web olandesi presenti. I dati ottenuti sono disponibili in forma limitata (a causa di problemi di copyright) su GitHub, insieme a parte del codice Python utilizzato per ottenere e valutare i dati.

Le quattro pubblicazioni studiate erano il politicamente conservatore Nu.nl , il più progressista Telegraaf , NRC e la rivista economica De Ondernemer . Ogni pubblicazione è stata equamente rappresentata nei dati.

Era necessario identificare e scartare i potenziali “leaker” nel lessico formato dalla ricerca – parole che potrebbero apparire in entrambi i tipi di contenuto con poca distinzione tra frequenza e utilizzo, al fine di stabilire modelli chiari per contenuti genuinamente nativi e sponsorizzati.

Risultati
Tra i metodi testati per l’identificazione, i migliori risultati sono stati ottenuti da SVM, linearSVC, Random Forest e SGD. Pertanto i ricercatori hanno proceduto a utilizzare SVM in ulteriori analisi.

 

Il miglior approccio del modello per estrarre la classificazione attraverso il corpus ha superato il 90% di accuratezza, sebbene i ricercatori notino che ottenere una classificazione chiara diventa più difficile quando si ha a che fare con pubblicazioni orientate al B2B, in cui la sovrapposizione lessicale tra contenuto percepito “reale” e “sponsorizzato” è eccessiva, forse perché lo stile nativo del linguaggio aziendale è già più soggettivo rispetto alla serie generale di convenzioni di reporting e analisi e può nascondere più facilmente un’agenda.

Grafici t-Distributed Stochastic Neighbor Embedding ( t-SNE ) per la separazione dei contenuti reali e sponsorizzati nelle quattro pubblicazioni.
I contenuti sponsorizzati sono “notizie false”?
La ricerca degli autori suggerisce che il loro progetto è innovativo nel campo dell’analisi del contenuto delle notizie. Quadri in grado di identificare i contenuti sponsorizzati potrebbero aprire la strada allo sviluppo di un monitoraggio anno dopo anno dell’equilibrio tra giornalismo oggettivo e la crescente tranche di “pubblicità nativa” che si colloca quasi nello stesso contesto nella maggior parte delle pubblicazioni, utilizzando gli stessi segnali visivi ( fogli di stile CSS e altra formattazione) come contenuto generale.

In un certo senso, la frequente mancanza di un contesto ovvio per i contenuti sponsorizzati sta emergendo come un sottocampo dello studio delle ‘fake news’. Sebbene la maggior parte degli editori riconosca la necessità di una separazione tra “chiesa e stato” e l’obbligo di fornire ai lettori una chiara divisione tra contenuto a pagamento e contenuto generato organicamente, le realtà della scena giornalistica post-stampa e l’aumento della dipendenza dagli inserzionisti si sono trasformate la de-enfasi degli indicatori sponsorizzati in un’arte nella psicologia dell’interfaccia utente. A volte i vantaggi derivanti dall’esecuzione di contenuti sponsorizzati sono abbastanza allettanti da rischiare un grave disastro ottico .

Nel 2015 i social media e la piattaforma di benchmarking competitivo Quintly hanno offerto un metodo di rilevamento basato sull’intelligenza artificiale per determinare se un post su Facebook è sponsorizzato, rivendicando un tasso di accuratezza del 96%. L’anno successivo, uno studio dell’Università della Georgia sosteneva che il modo in cui gli editori gestiscono la dichiarazione dei contenuti sponsorizzati potrebbe essere “complici con l’inganno” .

Nel 2017 MediaShift, un’organizzazione che esamina l’intersezione tra media e tecnologia, ha osservato la crescente misura in cui il New York Times monetizza le sue operazioni attraverso il suo studio di contenuti brandizzati, T Brand Studio, sostenendo livelli decrescenti di trasparenza sui contenuti sponsorizzati, con il tacito risultato intenzionale che i lettori non possono facilmente dire se il contenuto è generato organicamente o meno.

Nel 2020, un’altra iniziativa di ricerca dei Paesi Bassi ha sviluppato classificatori di apprendimento automatico per identificare automaticamente le notizie finanziate dallo stato russo che appaiono nelle piattaforme di notizie serbe. Inoltre, nel 2019 è stato stimato che le “soluzioni per i contenuti multimediali” di Forbes rappresentano il 40% delle sue entrate totali attraverso BrandVoice, lo studio di contenuti lanciato dall’editore nel 2010.

Di ihal