Creazione di una soluzione ML che estrae con precisione citazioni da articoli di notizie
 
The Guardian ha recentemente annunciato di aver unito le forze con Agence France-Presse (AFP) per lavorare su una soluzione di apprendimento automatico che estrae con precisione le citazioni da articoli di notizie e le abbina alla fonte giusta. La società afferma che le soluzioni esistenti non hanno funzionato molto bene sul loro contenuto e che i modelli hanno faticato a riconoscere le citazioni che non corrispondevano a uno schema classico. Alcuni modelli restituivano troppi falsi positivi e identificavano affermazioni generiche come citazioni.

Anche il co-riferimento, o il processo per stabilire la fonte di una citazione trovando il riferimento corretto nel testo, era un problema, specialmente quando il nome della fonte veniva menzionato in diverse frasi o addirittura paragrafi prima della citazione stessa. 

 
Per addestrare un modello per identificare le citazioni nel testo, l’azienda ha utilizzato due strumenti creati da Explosion :  Spacy , una delle principali librerie open source per l’elaborazione avanzata del linguaggio naturale utilizzando reti neurali profonde, e Prodigy , uno strumento di annotazione che fornisce un facile -to-use interfaccia web per l’etichettatura rapida ed efficiente dei dati di allenamento.

Insieme ad AFP, il team ha annotato manualmente più di 800 articoli di notizie con tre entità: contenuto (la citazione, tra virgolette), fonte (l’oratore, che potrebbe essere una persona, un’organizzazione, ecc.) e spunto (di solito un verbo frase, che indica l’atto del discorso o dell’espressione).

La sfida principale nella costruzione del set di dati di formazione è stata navigare nell’ambiguità dei diversi stili giornalistici. Il primo gruppo di annotazioni si è rivelato piuttosto rumoroso e incoerente, ma il team stava migliorando sempre di più a ogni iterazione.

 

Il modello ha identificato correttamente tutte e tre le entità (contenuto, fonte, spunto) nell’89% dei casi. Considerando ciascuna entità separatamente, il contenuto ha ottenuto il punteggio più alto (93%), seguito da spunto (86%) e fonte (84%).

L’azienda afferma che non vede l’ora di costruire un solido sistema di risoluzione di co-riferimento e di esplorare ulteriormente il deep learning . Saranno affrontate anche sfide come l’identificazione di citazioni e contenuti significativi. 

Di ihal