utilizzare l’apprendimento automatico per comprendere le citazioni
I data scientist del Guardian hanno lavorato con altre redazioni su un progetto globale per pensare all’intelligenza artificiale e al giornalismo. Qui spiegano come hanno insegnato a una macchina a capire cos’è una citazione

“Se è difficile per un essere umano identificare una citazione, possiamo insegnare a una macchina a farcela?” 
 
Negli ultimi sei mesi abbiamo fatto parte del 2021 JournalismAI Collab Challenges , un progetto che collega le redazioni globali per capire come l’intelligenza artificiale può migliorare il giornalismo. La nostra sfida particolare è stata quella di rispondere a questa domanda:

“Come potremmo utilizzare il giornalismo modulare e l’intelligenza artificiale per assemblare nuovi formati di narrazione e raggiungere un pubblico meno servito?”

 

Le redazioni partecipanti sono state organizzate in team per definire le sfide su cui avrebbero lavorato, immaginare potenziali soluzioni e trasformarle in prototipi. Il nostro team comprendeva redazioni da tutta Europa, Africa e Medio Oriente. Sebbene attiriamo tutti un pubblico diverso, produciamo diversi tipi di contenuti e abbiamo modelli di business diversi, condividiamo alcune delle stesse sfide fondamentali.

 

I moduli sono stati definiti come frammenti di una storia che vivono in modo indipendente, possono essere riproposti o addirittura sostituiti da un altro frammento. Sulla base di questa definizione, le citazioni si qualificano fortemente come un modulo.

Ci sono una serie di buoni motivi per utilizzare l’intelligenza artificiale per identificare le citazioni, dalla creazione di nuovi contenuti da esse al monitoraggio delle opinioni mutevoli sullo stesso argomento nel tempo e al controllo dei fatti. Un altro caso d’uso interessante sta rivelando intuizioni nascoste sul nostro giornalismo. Chi sono le nostre fonti? Quanto sono diversi? Quante volte citiamo le stesse persone o organizzazioni? Diamo la stessa esposizione a generi e gruppi etnici diversi?

Che cos’è una citazione?
The Guardian ha unito le forze con l’Agence France-Presse (AFP) per lavorare su una soluzione di apprendimento automatico per estrarre con precisione le citazioni dagli articoli di notizie e abbinarle alla fonte giusta.

Le soluzioni esistenti non hanno funzionato molto bene sui nostri contenuti. I modelli hanno faticato a riconoscere le citazioni che non corrispondevano a uno schema classico come:

Hanno ammesso: “Il modello è stato addestrato su un numero limitato di stili di citazione”.

Alcuni modelli restituivano troppi falsi positivi e identificavano affermazioni generiche come citazioni. Per esempio:

Il governo ha annunciato giovedì che le famiglie di sostegno testato per i mezzi che ricevono con le loro cure non sarebbero state conteggiate per il totale di £ 85.000, il che significa che coloro che dispongono di beni relativamente modesti potrebbero comunque vedersi pagare tale importo per intero.

 
Anche la co-referenziazione, il processo per stabilire la fonte di una citazione trovando il riferimento corretto nel testo, era un problema, specialmente quando il nome della fonte veniva menzionato diverse frasi o addirittura paragrafi prima della citazione stessa.

I nostri precedenti tentativi di risolvere questo problema utilizzando espressioni regolari (sequenze di caratteri che specificano un modello di ricerca) si sono imbattuti in parole che i creatori di contenuti hanno deciso di mettere tra virgolette per indicare termini inglesi non standard (come “woke”). Volevamo vedere se potevamo insegnare a una macchina a capire la differenza tra questi due costrutti vocali. C’era anche un ulteriore vantaggio nel provare l’approccio di apprendimento automatico in quanto potevamo mitigare meglio gli errori di battitura con conseguente mancata corrispondenza o virgolette mancanti o fonti citate all’interno di un’altra citazione.

Innanzitutto, avevamo bisogno di una definizione chiara di un preventivo. Abbiamo deciso di utilizzare la definizione di Wikipedia come punto di partenza:

“Una citazione è la ripetizione di una frase, una frase o un passaggio di un discorso o di un testo che qualcuno ha detto o scritto. Nel discorso orale, è la rappresentazione di un enunciato (cioè di qualcosa che un parlante ha effettivamente detto) che viene introdotto da un marcatore citazionistico, come un verbo di dire. Ad esempio: John ha detto: “Ho visto Mary oggi”. Le citazioni nel discorso orale sono segnalate anche da speciali prosodie oltre ai marcatori citazionistici. Nel testo scritto, le citazioni sono segnalate da virgolette”.

Seguendo questa definizione, abbiamo deciso di separare chiaramente parafrasi e citazioni e concentrare i nostri sforzi sull’identificazione del testo solo tra virgolette.

Apprendimento profondo in soccorso
Per addestrare un modello a identificare le citazioni nel testo abbiamo utilizzato due strumenti creati da Explosion . Spacy è una delle principali librerie open source per l’elaborazione avanzata del linguaggio naturale che utilizza reti neurali profonde. Prodigy è uno strumento di annotazione che fornisce un’interfaccia web di facile utilizzo per un’etichettatura rapida ed efficiente dei dati di allenamento.

Insieme ai nostri colleghi AFP abbiamo annotato manualmente più di 800 articoli di notizie con tre entità: contenuto (la citazione, tra virgolette), fonte (l’oratore, che potrebbe essere una persona, un’organizzazione, ecc.) e spunto (di solito un verbo frase, che indica l’atto del discorso o dell’espressione).

 

Prima di rimboccarci le maniche dovevamo creare una guida molto chiara e concisa per annotare i nostri dati. Per ridurre al minimo il rumore e l’incertezza nel set di dati di addestramento, dovevamo assicurarci che più annotatori comprendessero l’attività allo stesso modo.

La guida di stile del Guardian offre una panoramica di come gli scrittori dovrebbero citare le fonti. È stato un buon punto di partenza e lo abbiamo trovato molto utile. Tuttavia, abbiamo scoperto che molte citazioni nei nostri contenuti deviavano significativamente dalle regole suggerite in questa guida.

Dal primo modello basato su espressioni regolari abbiamo ereditato un lungo elenco di diversi stili e costrutti di citazione. Inizialmente, abbiamo contato 12 modi diversi in cui i giornalisti includono le citazioni nei loro scritti, ma ne abbiamo aggiunti molti altri durante il processo di annotazione.

“Se solo tutte le citazioni fossero così”, ci siamo lamentati.

L’ultimo elemento di questo lungo elenco di diversi costrutti era questo:

L’annotatrice si è infastidita e ha detto: “Quando pensavamo di aver elencato tutti gli stili di citazione, abbiamo trovato questo…”, ha detto. ?

 

Michaëla Cancela-Kieffer, vicedirettore dell’AFP per i progetti editoriali, afferma: “Mi piace l’idea che l’IA ci costringa a decostruire le nostre abitudini e a capire come facciamo le cose e quali passi adottiamo prima di dire al modello quali sono le regole. In questo modo a volte possiamo identificare i cambiamenti necessari e migliorare i nostri processi originali della “vita reale”. Ecco perché questo tipo di esperimento potrebbe portare anche a cambiamenti nella nostra guida di stile”.

Apprendimento umano e apprendimento automatico
La sfida principale nella costruzione del set di dati di formazione è stata navigare nell’ambiguità dei diversi stili giornalistici. Per diversi giorni abbiamo discusso di decine di casi in cui era difficile fare la scelta giusta.

Come dovremmo trattare i testi delle canzoni o le poesie? E i messaggi sui cartelli? E se qualcuno cita i propri pensieri, qualcosa che non è stato detto ad alta voce?

Il primo batch delle nostre annotazioni si è rivelato piuttosto rumoroso e incoerente, ma stavamo migliorando sempre di più a ogni iterazione.

Collettivamente abbiamo sperimentato lo stesso processo di insegnamento che stavamo attraversando il nostro modello. Più esempi abbiamo guardato, meglio siamo diventati nel riconoscere casi diversi. Eppure la domanda rimaneva: se è difficile per un essere umano prendere queste decisioni, possiamo insegnare a una macchina a far fronte a questo compito?

 

I risultati sembravano promettenti, soprattutto per l’ entità del contenuto . Il modello è riuscito a identificare correttamente tutte e tre le entità ( contenuto , fonte , spunto ) nell’89% dei casi. Considerando ciascuna entità separatamente, il contenuto ha ottenuto il punteggio più alto (93%) seguito da spunto (86%) e fonte (84%).

È interessante notare che abbiamo ottenuto questi risultati scartando le primissime annotazioni che abbiamo fatto, indicando che siamo diventati molto migliori e allineati tra loro mentre continuavamo ad annotare altri esempi.

La differenza tra le tre entità non è sorprendente. L’ entità del contenuto è racchiusa tra virgolette, quindi la punteggiatura è un segnale forte per la corrispondenza con questo tipo di entità. Tuttavia, non tutte le frasi tra virgolette sono virgolette: le virgolette vengono utilizzate anche per altre scelte stilistiche, aggiungendo rumore all’attività di estrazione dell’entità. Dalla nostra analisi preliminare, sembra che il nostro modello abbia imparato a distinguere tra citazioni autentiche e parole tra virgolette che indicano termini non standard o scelte stilistiche.

Per valutare il nostro modello, abbiamo utilizzato il modo più rigoroso di misurare le prestazioni del riconoscimento dell’entità denominata, ovvero ogni entità prevista deve corrispondere esattamente (dall’inizio alla fine) rispetto ai dati annotati. Anche nei casi in cui il modello si sbaglia, spesso scopriamo che è riuscito a corrispondere parzialmente all’entità. Ciò è particolarmente vero per le entità di origine .

Qual è il prossimo?
Andando avanti abbiamo bisogno di costruire un solido sistema di risoluzione della coreferenza. Vorremmo esplorare le opzioni di deep learning per aiutarci con questa missione.

Un’altra sfida sarà identificare citazioni significative, contenuti che vale la pena conservare per riferimenti futuri. Siamo fiduciosi che una combinazione di apprendimento automatico, metadati esistenti sugli articoli e informazioni aggiuntive estratte da fonti e contenuti potrebbe darci un segnale forte per la classificazione delle citazioni.

Un’altra applicazione sarebbe un’interfaccia utente per scoprire le citazioni. Ciò consentirebbe ai giornalisti di far emergere rapidamente le citazioni precedenti per confrontarle con le dichiarazioni attuali o per arricchire i loro articoli.

“Questo potrebbe portare a uno strumento rivolto all’utente con più applicazioni. I dati generati da tale ricerca potrebbero in cambio informare la redazione sugli interessi degli utenti”, afferma Cancela-Kieffer.

 
Chris Moran, responsabile dell’innovazione editoriale del Guardian, afferma: “Ci impegniamo a pensare all’intelligenza artificiale e all’automazione attraverso una lente giornalistica e sperimenteremo il più possibile per trovare i modi davvero positivi in ​​cui possiamo applicarla e evitare le insidie».

Il tentativo di identificare ed estrarre citazioni da articoli di notizie utilizzando il machine learning può sembrare arcano per alcuni. Ma i potenziali benefici per lettori, giornalisti ed editori potrebbero essere considerevoli: dall’assicurarsi di dare una piattaforma a coloro che sono spesso sottorappresentati, alla costruzione di prodotti e formati che raccontano l’intera storia, piuttosto che affidarsi a un semplice “lui ha detto, ha detto” formula.

Di ihal