I ricercatori propongono un sistema di intelligenza artificiale che riassume i testi storici
Riassumere il testo storico può aiutare le persone a raccogliere, organizzare e condividere le conoscenze, ma i cambiamenti culturali e linguistici e l’enorme volume di archivi possono rendere l’interpretazione del testo storico impegnativa anche per gli esperti. I ricercatori dell’Università di Sheffield, della Beihang University e della Open University nel Regno Unito hanno recentemente tentato di affrontare questo problema utilizzando tecniche di intelligenza artificiale e apprendimento automatico . Dicono che il loro approccio, che può riassumere documenti storici scritti in tedesco e cinese, fornisce una solida base per studi futuri.
I ricercatori hanno scelto di concentrarsi sulle lingue tedesco e cinese per i loro “ricchi patrimoni testuali” e le risorse “accessibili” per le forme storiche e moderne. Entrambe le lingue fungono da rappresentanti “eccezionali” di due distinti sistemi di scrittura – tedesco per alfabetico e cinese per ideografico – e indagarle potrebbe portare a intuizioni generalizzabili per un’ampia gamma di altre lingue, secondo i ricercatori. Inoltre, gli esperti linguistici in entrambe le lingue sono numerosi, il che rende facile trovare riassunti in lingua moderna per il testo tedesco e cinese per la valutazione dei sistemi di riepilogo dell’apprendimento automatico.
Per costruire un dataset storico sulla formazione in lingua tedesca, i ricercatori hanno scelto i giornali dagli anni dal 1650 al 1800, selezionando a caso 100 delle 383 storie disponibili per l’annotazione. E per i cinesi, hanno scelto una raccolta di storie del periodo Wanli della dinastia Ming, cercando oltre 200 documenti accademici correlati e recuperando 100 testi di notizie. Per generare riassunti nelle lingue moderne per le storie storiche, i coautori hanno reclutato due esperti con una laurea rispettivamente in Germanistik e Letteratura cinese antica. Hanno prodotto un corpus di 100 notizie e riassunti in ciascuna lingua che sono stati poi esaminati da altri sei esperti per il controllo della qualità.
I ricercatori osservano che avevano solo dati di addestramento di riepilogo per il tedesco moderno e il cinese e corpora molto limitati per le forme storiche delle lingue. Per aggirare queste limitazioni, hanno utilizzato un approccio basato sull’apprendimento del trasferimento che, secondo loro, potrebbe essere avviato anche senza una formazione multilingue, ovvero una formazione attraverso le forme storiche e moderne delle lingue.
“Il riassunto del testo storico pone alcune sfide uniche … I testi storici non possono essere gestiti dai tradizionali riassunti interlinguistici, che richiedono una [formazione] interlinguistica o almeno grandi set di dati di riepilogo in entrambe le lingue”, hanno scritto i ricercatori. “Inoltre, l’uso della lingua si evolve nel tempo, compresi il vocabolario e l’ortografia delle parole e i significati, e le raccolte storiche possono estendersi per centinaia di anni. Anche gli stili di scrittura cambiano nel tempo. Ad esempio, mentre è comune per le notizie di oggi presentare informazioni importanti nelle prime frasi, un modello sfruttato dai moderni riepiloghi di notizie, questa non era la norma nei tempi antichi “.
Negli esperimenti, i ricercatori affermano che le valutazioni automatiche e umane hanno dimostrato la forza del loro metodo su linee di base all’avanguardia. In futuro, hanno in programma di migliorare i loro modelli per aggiungere ulteriori lingue e aumentare la dimensione del set di dati di formazione che hanno utilizzato per ciascuna lingua.
“Questo documento ha introdotto il nuovo compito di riassumere i documenti storici nelle lingue moderne, un’applicazione in precedenza inesplorata ma importante della sintesi cross-linguale che può supportare storici e ricercatori di scienze umane digitali”, hanno scritto le ricerche. “Questo documento è il primo studio sulla sintesi automatizzata del testo storico”.