Principali difetti riscontrati nell’apprendimento automatico per la diagnosi COVID-19

Una coalizione di ricercatori di intelligenza artificiale e professionisti sanitari in campi come malattie infettive, radiologia e ontologia ha riscontrato diverse carenze comuni ma gravi con l’apprendimento automatico realizzato per la diagnosi o la prognosi COVID-19.

Dopo l’inizio della pandemia globale, startup come DarwinAI , grandi aziende come Nvidia e gruppi come l’American College of Radiology hanno lanciato iniziative per rilevare COVID-19 da scansioni TC, raggi X o altre forme di imaging medico. La promessa di tale tecnologia è che potrebbe aiutare gli operatori sanitari a distinguere tra polmonite e COVID-19 o fornire più opzioni per la diagnosi del paziente. Alcuni modelli sono stati persino sviluppati per prevedere se una persona morirà o avrà bisogno di un ventilatore sulla base di una TAC. Tuttavia, i ricercatori affermano che sono necessari importanti cambiamenti prima che questa forma di apprendimento automatico possa essere utilizzata in un contesto clinico.

I ricercatori hanno valutato più di 2.200 articoli e, attraverso un processo di rimozione di duplicati e titoli irrilevanti, hanno ridotto i risultati a 320 articoli sottoposti a una revisione del testo completo per verificarne la qualità. Infine, 62 articoli sono stati ritenuti idonei a far parte di ciò a cui gli autori si riferiscono come una revisione sistematica della ricerca pubblicata e dei preprint condivisi su archivi di documenti di ricerca aperti come arXiv, bioRxiv e medRxiv.

Di questi 62 documenti inclusi nell’analisi, circa la metà non ha tentato di eseguire la convalida esterna dei dati di addestramento, non ha valutato la sensibilità o la robustezza del modello e non ha riportato i dati demografici delle persone rappresentate nei dati di addestramento.

Anche i set di dati “Frankenstein”, del tipo realizzato con immagini duplicate ottenute da altri set di dati, sono risultati essere un problema comune e solo uno su cinque modelli di diagnosi o prognosi COVID-19 condivideva il proprio codice in modo che altri potessero riprodurre i risultati dichiarati in letteratura.

“Nella loro forma attuale riportata, nessuno dei modelli di apprendimento automatico inclusi in questa revisione è probabile che sia candidato alla traduzione clinica per la diagnosi / prognosi di COVID-19”, si legge nel documento. “Nonostante gli enormi sforzi dei ricercatori per sviluppare modelli di apprendimento automatico per la diagnosi e la prognosi COVID-19, abbiamo trovato difetti metodologici e molti pregiudizi in tutta la letteratura, portando a prestazioni riportate altamente ottimistiche”.

La ricerca è stata pubblicata la scorsa settimana come parte del numero di marzo di Nature Machine Intelligence dai ricercatori dell’Università di Cambridge e dell’Università di Manchester. Altri problemi comuni che hanno riscontrato con i modelli di apprendimento automatico sviluppati utilizzando i dati di imaging medico non erano praticamente una valutazione per pregiudizi e generalmente l’addestramento senza immagini sufficienti. Quasi ogni articolo recensito è risultato ad alto o incerto rischio di bias; solo sei sono stati considerati a basso rischio di bias.

Anche i set di dati disponibili pubblicamente soffrivano di formati di immagine di qualità inferiore e non erano abbastanza grandi per addestrare modelli di intelligenza artificiale affidabili. I ricercatori hanno utilizzato l’elenco di controllo per l’intelligenza artificiale nell’imaging medico (CLAIM) e il punteggio di qualità della radiomica (RQS) per aiutare a valutare i set di dati e i modelli.

“L’urgenza della pandemia ha portato a molti studi che utilizzano set di dati che contengono evidenti pregiudizi o non sono rappresentativi della popolazione target, ad esempio i pazienti pediatrici. Prima di valutare un modello, è fondamentale che gli autori riportino le statistiche demografiche per i loro set di dati, comprese le distribuzioni per età e sesso “, si legge nel documento. “Set di dati di qualità superiore, manoscritti con documentazione sufficiente per essere riproducibili e convalida esterna sono necessari per aumentare la probabilità che i modelli vengano portati avanti e integrati nelle sperimentazioni cliniche future per stabilire una convalida tecnica e clinica indipendente nonché un rapporto costo-efficacia”.

Altre raccomandazioni suggerite dal gruppo di ricercatori di intelligenza artificiale e professionisti sanitari includono la garanzia della riproducibilità dei risultati delle prestazioni del modello enunciati nei documenti di ricerca e la considerazione di come i set di dati vengono assemblati e messi insieme.

In altre notizie all’incrocio tra COVID-19 e apprendimento automatico, all’inizio di questa settimana la Food and Drug Administration (FDA) ha approvato l’autorizzazione all’uso di emergenza di un dispositivo di screening basato sull’apprendimento automatico che, secondo l’agenzia, è il primo approvato negli Stati Uniti.

Principali difetti riscontrati nell’apprendimento automatico per la diagnosi COVID-19

Diihal

Di ihal

Articoli correlati

Oncologia: l’Ospedale di Livorno protagonista di una ricerca globale sull’uso dell’AI per la terapia mirata

Il robot Da Vinci e l’intelligenza artificiale per la chirurgia nelle Marche

Proteina AI contro l’Escherichia coli resistente nella lotta ai superbatteri

You missed

Rendering neurale: arriva NVIDIA DiffusionRenderer per video realistici

Salesforce presenta GTA1, agente GUI che supera OpenAI CUA nei benchmark

Meta acquisisce PlayAI per potenziare l’AI vocale nel suo Superintelligence Lab

Anthropic propone un quadro di trasparenza per l’AI avanzata tra sicurezza, responsabilità e flessibilità