The Guardian con France Press testa il Machine learning per estrarre con precisione le citazioni dalle notizie

Creazione di una soluzione ML che estrae con precisione citazioni da articoli di notizie

The Guardian ha recentemente annunciato di aver unito le forze con Agence France-Presse (AFP) per lavorare su una soluzione di apprendimento automatico che estrae con precisione le citazioni da articoli di notizie e le abbina alla fonte giusta. La società afferma che le soluzioni esistenti non hanno funzionato molto bene sul loro contenuto e che i modelli hanno faticato a riconoscere le citazioni che non corrispondevano a uno schema classico. Alcuni modelli restituivano troppi falsi positivi e identificavano affermazioni generiche come citazioni.

Anche il co-riferimento, o il processo per stabilire la fonte di una citazione trovando il riferimento corretto nel testo, era un problema, specialmente quando il nome della fonte veniva menzionato in diverse frasi o addirittura paragrafi prima della citazione stessa.

Per addestrare un modello per identificare le citazioni nel testo, l’azienda ha utilizzato due strumenti creati da Explosion : Spacy , una delle principali librerie open source per l’elaborazione avanzata del linguaggio naturale utilizzando reti neurali profonde, e Prodigy , uno strumento di annotazione che fornisce un facile -to-use interfaccia web per l’etichettatura rapida ed efficiente dei dati di allenamento.

Insieme ad AFP, il team ha annotato manualmente più di 800 articoli di notizie con tre entità: contenuto (la citazione, tra virgolette), fonte (l’oratore, che potrebbe essere una persona, un’organizzazione, ecc.) e spunto (di solito un verbo frase, che indica l’atto del discorso o dell’espressione).

La sfida principale nella costruzione del set di dati di formazione è stata navigare nell’ambiguità dei diversi stili giornalistici. Il primo gruppo di annotazioni si è rivelato piuttosto rumoroso e incoerente, ma il team stava migliorando sempre di più a ogni iterazione.

Il modello ha identificato correttamente tutte e tre le entità (contenuto, fonte, spunto) nell’89% dei casi. Considerando ciascuna entità separatamente, il contenuto ha ottenuto il punteggio più alto (93%), seguito da spunto (86%) e fonte (84%).

L’azienda afferma che non vede l’ora di costruire un solido sistema di risoluzione di co-riferimento e di esplorare ulteriormente il deep learning . Saranno affrontate anche sfide come l’identificazione di citazioni e contenuti significativi.

The Guardian con France Press testa il Machine learning per estrarre con precisione le citazioni dalle notizie

Diihal

Di ihal

Articoli correlati

TabFM di Google porta i foundation model nel machine learning tabellare

Prato, l’intelligenza artificiale individua un incendio nel bosco di Cerreto

Unitec applica l’intelligenza artificiale alla selezione interna ed esterna delle ciliegie

Ultimi Post

Conversazioni e Artifacts di Claude sono comparsi nei risultati di Google attraverso i link pubblici

OpenAI sospende il modello Erdős dopo ripetute evasioni della sandbox durante i test interni

Google AI Overviews compare ormai nel 43% delle ricerche e sposta gli utenti verso la ricerca conversazionale

Moonshot pubblica i pesi di Kimi K3 con una licenza commerciale basata sui ricavi