Creazione di una soluzione ML che estrae con precisione citazioni da articoli di notizie
The Guardian ha recentemente annunciato di aver unito le forze con Agence France-Presse (AFP) per lavorare su una soluzione di apprendimento automatico che estrae con precisione le citazioni da articoli di notizie e le abbina alla fonte giusta. La società afferma che le soluzioni esistenti non hanno funzionato molto bene sul loro contenuto e che i modelli hanno faticato a riconoscere le citazioni che non corrispondevano a uno schema classico. Alcuni modelli restituivano troppi falsi positivi e identificavano affermazioni generiche come citazioni.
Anche il co-riferimento, o il processo per stabilire la fonte di una citazione trovando il riferimento corretto nel testo, era un problema, specialmente quando il nome della fonte veniva menzionato in diverse frasi o addirittura paragrafi prima della citazione stessa.
Per addestrare un modello per identificare le citazioni nel testo, l’azienda ha utilizzato due strumenti creati da Explosion : Spacy , una delle principali librerie open source per l’elaborazione avanzata del linguaggio naturale utilizzando reti neurali profonde, e Prodigy , uno strumento di annotazione che fornisce un facile -to-use interfaccia web per l’etichettatura rapida ed efficiente dei dati di allenamento.
Insieme ad AFP, il team ha annotato manualmente più di 800 articoli di notizie con tre entità: contenuto (la citazione, tra virgolette), fonte (l’oratore, che potrebbe essere una persona, un’organizzazione, ecc.) e spunto (di solito un verbo frase, che indica l’atto del discorso o dell’espressione).
La sfida principale nella costruzione del set di dati di formazione è stata navigare nell’ambiguità dei diversi stili giornalistici. Il primo gruppo di annotazioni si è rivelato piuttosto rumoroso e incoerente, ma il team stava migliorando sempre di più a ogni iterazione.
Il modello ha identificato correttamente tutte e tre le entità (contenuto, fonte, spunto) nell’89% dei casi. Considerando ciascuna entità separatamente, il contenuto ha ottenuto il punteggio più alto (93%), seguito da spunto (86%) e fonte (84%).
L’azienda afferma che non vede l’ora di costruire un solido sistema di risoluzione di co-riferimento e di esplorare ulteriormente il deep learning . Saranno affrontate anche sfide come l’identificazione di citazioni e contenuti significativi.