Una coalizione di ricercatori di intelligenza artificiale e professionisti sanitari in campi come malattie infettive, radiologia e ontologia ha riscontrato diverse carenze comuni ma gravi con l’apprendimento automatico realizzato per la diagnosi o la prognosi COVID-19.

Dopo l’inizio della pandemia globale, startup come DarwinAI , grandi aziende come Nvidia e gruppi come l’American College of Radiology hanno lanciato iniziative per rilevare COVID-19 da scansioni TC, raggi X o altre forme di imaging medico. La promessa di tale tecnologia è che potrebbe aiutare gli operatori sanitari a distinguere tra polmonite e COVID-19 o fornire più opzioni per la diagnosi del paziente. Alcuni modelli sono stati persino sviluppati per prevedere se una persona morirà o avrà bisogno di un ventilatore sulla base di una TAC. Tuttavia, i ricercatori affermano che sono necessari importanti cambiamenti prima che questa forma di apprendimento automatico possa essere utilizzata in un contesto clinico.

I ricercatori hanno valutato più di 2.200 articoli e, attraverso un processo di rimozione di duplicati e titoli irrilevanti, hanno ridotto i risultati a 320 articoli sottoposti a una revisione del testo completo per verificarne la qualità. Infine, 62 articoli sono stati ritenuti idonei a far parte di ciò a cui gli autori si riferiscono come una revisione sistematica della ricerca pubblicata e dei preprint condivisi su archivi di documenti di ricerca aperti come arXiv, bioRxiv e medRxiv.

Di questi 62 documenti inclusi nell’analisi, circa la metà non ha tentato di eseguire la convalida esterna dei dati di addestramento, non ha valutato la sensibilità o la robustezza del modello e non ha riportato i dati demografici delle persone rappresentate nei dati di addestramento.

Anche i set di dati “Frankenstein”, del tipo realizzato con immagini duplicate ottenute da altri set di dati, sono risultati essere un problema comune e solo uno su cinque modelli di diagnosi o prognosi COVID-19 condivideva il proprio codice in modo che altri potessero riprodurre i risultati dichiarati in letteratura.

“Nella loro forma attuale riportata, nessuno dei modelli di apprendimento automatico inclusi in questa revisione è probabile che sia candidato alla traduzione clinica per la diagnosi / prognosi di COVID-19”, si legge nel documento. “Nonostante gli enormi sforzi dei ricercatori per sviluppare modelli di apprendimento automatico per la diagnosi e la prognosi COVID-19, abbiamo trovato difetti metodologici e molti pregiudizi in tutta la letteratura, portando a prestazioni riportate altamente ottimistiche”.

La ricerca è stata pubblicata la scorsa settimana come parte del numero di marzo di Nature Machine Intelligence dai ricercatori dell’Università di Cambridge e dell’Università di Manchester. Altri problemi comuni che hanno riscontrato con i modelli di apprendimento automatico sviluppati utilizzando i dati di imaging medico non erano praticamente una valutazione per pregiudizi e generalmente l’addestramento senza immagini sufficienti. Quasi ogni articolo recensito è risultato ad alto o incerto rischio di bias; solo sei sono stati considerati a basso rischio di bias.

Anche i set di dati disponibili pubblicamente soffrivano di formati di immagine di qualità inferiore e non erano abbastanza grandi per addestrare modelli di intelligenza artificiale affidabili. I ricercatori hanno utilizzato l’elenco di controllo per l’intelligenza artificiale nell’imaging medico (CLAIM) e il punteggio di qualità della radiomica (RQS) per aiutare a valutare i set di dati e i modelli.

“L’urgenza della pandemia ha portato a molti studi che utilizzano set di dati che contengono evidenti pregiudizi o non sono rappresentativi della popolazione target, ad esempio i pazienti pediatrici. Prima di valutare un modello, è fondamentale che gli autori riportino le statistiche demografiche per i loro set di dati, comprese le distribuzioni per età e sesso “, si legge nel documento. “Set di dati di qualità superiore, manoscritti con documentazione sufficiente per essere riproducibili e convalida esterna sono necessari per aumentare la probabilità che i modelli vengano portati avanti e integrati nelle sperimentazioni cliniche future per stabilire una convalida tecnica e clinica indipendente nonché un rapporto costo-efficacia”.

Altre raccomandazioni suggerite dal gruppo di ricercatori di intelligenza artificiale e professionisti sanitari includono la garanzia della riproducibilità dei risultati delle prestazioni del modello enunciati nei documenti di ricerca e la considerazione di come i set di dati vengono assemblati e messi insieme.

In altre notizie all’incrocio tra COVID-19 e apprendimento automatico, all’inizio di questa settimana la Food and Drug Administration (FDA) ha approvato l’autorizzazione all’uso di emergenza di un dispositivo di screening basato sull’apprendimento automatico che, secondo l’agenzia, è il primo approvato negli Stati Uniti.

Di ihal