Il dilemma nascosto nel sfruttare l’intelligenza artificiale per combattere
L’intelligenza artificiale potrebbe essere sfruttata per affrontare Covid-19, ma la sfida principale e poco menzionata in questo sforzo globale è la mancanza di dati etichettati.
L’apprendimento automatico, un potente tipo di IA, può essere addestrato per riconoscere modelli spesso più veloci e più accurati degli umani. Ha la promessa di prevedere quali pazienti con coronavirus avranno bisogno di cure intensive e quali possono tranquillamente rimanere a casa, consentendo agli ospedali di gestire meglio risorse limitate.
Tuttavia, per insegnare a quegli algoritmi cosa cercare, devono prima essere alimentati con enormi quantità di immagini polmonari di Covid-19. Dopo aver visto abbastanza scansioni, gli algoritmi potrebbero diventare esperti nella previsione dei risultati e aiutare i medici a pianificare le cure.
Raccogliere scansioni polmonari di pazienti Covid-19 è abbastanza problematico, dati i protocolli di privacy che proteggono i dati dei pazienti. Ma etichettare quelle immagini per insegnare agli algoritmi di apprendimento automatico cosa cercare è un altro ostacolo.
Più popolari in: AI
“Oltre a ottenere l’accesso ai dati e selezionare le immagini giuste, si tratta in realtà di annotarli correttamente e, per questo, hai bisogno di radiologi qualificati”, ha dichiarato Hamid R. Tizhoosh , professore all’Università canadese di Waterloo dove dirige il laboratorio per Inferenza della conoscenza nell’analisi delle immagini mediche. “Non possiamo escludere i radiologi e raschiare immagini da Internet”, ha detto.
Sono in corso numerosi progetti per applicare l’IA alle scansioni a raggi X e tomografia computerizzata di pazienti Covid-19. Ma finora, queste iniziative hanno generato solo modelli basati su piccoli set di dati, il che significa che hanno meno probabilità di ottenere buoni risultati in un’ampia varietà di popolazioni di pazienti. L’accesso a grandi set di dati con etichetta ben curati rimane un collo di bottiglia fondamentale per lo sviluppo di modelli in molte aree, ma in particolare Covid-19, dove i dati non sono stati resi disponibili per le comunità globali di ricerca e istruzione.
In risposta, la Radiological Society of North America , o RSNA, ha iniziato a lavorare su un nuovo repository di dati di imaging toracico relativo a Covid-19. I dati saranno ulteriormente annotati da 600 radiologi volontari guidati da membri della Society of Thoracic Radiology . Il set di dati verrà rilasciato nelle fasi a partire da luglio e continuerà durante tutto l’anno man mano che vengono accumulati e annotati più dati. L’obiettivo di RSNA è quello di creare un set di dati con etichetta professionale di 10.000 scansioni CT e 25.000 radiografie del torace.
La domanda di dati etichettati di vario genere è aumentata negli ultimi mesi.
“Abbiamo assistito a un aumento dell’attività di etichettatura dalla pandemia”, ha dichiarato Brian Rieger, co-fondatore di Labelbox , una piattaforma di dati di formazione leader utilizzata per gestire il processo di etichettatura. “È aumentato sia il numero di ore di etichettatura sia la complessità delle etichette”.
La piattaforma di Labelbox viene utilizzata da numerosi progetti relativi a Covid. Uno è Caption Health , che utilizza la piattaforma per annotare i dati di addestramento proprietari per il suo sistema approvato dalla FDA che guida chiunque brandisca una bacchetta ad ultrasuoni per produrre immagini di qualità diagnostica. Il sistema viene utilizzato in diversi ospedali, consentendo al personale di terapia intensiva, altrimenti non addestrato in ecografia, di monitorare i cuori e i polmoni dei pazienti Covid per rilevare segni di complicanze correlate al virus.
Omdena , una piattaforma per la creazione di soluzioni di intelligenza artificiale attraverso la collaborazione globale, sta usando Labelbox per annotare gli effetti positivi o negativi delle politiche relative a Covid menzionate negli articoli di notizie. Omdena ha circa 75 persone in tutto il mondo che etichettano articoli nella speranza di creare un database in grado di informare i governi sugli effetti che possono aspettarsi scegliendo una politica piuttosto che un’altra. Un secondo progetto Omdena sta esaminando gli effetti della pandemia sul debito degli studenti per identificare politiche che possano aiutare ad alleviare l’onere finanziario.
“Vogliamo costruire modelli che possano aiutare i politici a comprendere gli effetti delle loro azioni”, ha dichiarato il fondatore di Omdena , Rudradeb Mitra . I dati, ad esempio, mostrano una chiara correlazione tra la chiusura delle scuole e un aumento della violenza domestica.
Mitch Chaiet , un ricercatore dell’Università del Texas, ad Austin, sta usando Labelbox per etichettare il contenuto che contiene informazioni dannose o false, come schermate di post sui social media che contengono cure di coronavirus non verificate. Mentre le piattaforme di social media bloccano la disinformazione attraverso la ricerca di testo, le campagne coordinate utilizzano schermate e altre immagini più difficili da tracciare. Il progetto di Chaiet sta tracciando la provenienza e la diffusione della disinformazione relativa a Covid.
“Il potere di questa disinformazione è piuttosto immenso”, ha detto Chaiet, citando il caso di un uomo che ha tentato di schiantare un treno sulla nave dell’ospedale, USNS Mercy , dopo aver letto le teorie della cospirazione online secondo cui la nave faceva parte di un complotto del governo .
Ma gli algoritmi di allenamento sulle scansioni polmonari positive per Covid potrebbero essere l’uso più efficace dell’apprendimento automatico nell’attuale pandemia.
A marzo, un team guidato da Joseph Paul Cohen , postdottorato presso Mila, un Canadian AI Institute e l’Università di Montreal, ha iniziato a costruire un database pubblico di casi di polmonite Covid-19. Il gruppo sta sfruttando il lavoro svolto l’anno scorso su uno strumento di assistenza alla radiologia del torace a raggi X artificialmente intelligente in grado di riconoscere caratteristiche anomale nelle scansioni polmonari.
Ma la scarsità di dati – finora ha raccolto solo poche centinaia di scansioni positive per Covid e ha informazioni incomplete per molti di quei pazienti – ha costretto il dottor Cohen a utilizzare un metodo chiamato apprendimento del trasferimento “pochi colpi”. Il metodo prevede l’addestramento di un modello su set di dati di scansione toracica di grandi dimensioni, non Covid, quindi l’addestramento su un set di dati più piccolo di scansioni Covid in modo che possa dedurre elementi su tali immagini.
Molti esperti di apprendimento automatico avvertono che tali progetti sono prematuri.
Abdul Khader Jilani , capo scienziato di dati presso DataRobot , una società di intelligenza artificiale aziendale, ha affermato che il problema richiede esperti in materia che lavorano su una piattaforma in cui più persone possono annotare le immagini.
“Anche se è disponibile un buon set di dati, non è possibile annotarlo senza esperienza in materia”, ha detto. Senza questa esperienza umana che aumenta l’IA, ha avvertito, “le persone potrebbero mettere in produzione modelli che rischiano di etichettare le persone che sono perfettamente in salute come pazienti Covid perché gli algoritmi stanno rilevando segnali nelle immagini che sono completamente irrilevanti”.
Il Dr. Tizhoosh sta lavorando a due progetti, uno con dati cinesi e uno con dati iraniani, entrambi provenienti da ospedali curati dai radiologi. Finora, entrambi i progetti hanno sofferto di dati etichettati inadeguati. “Con la Cina, non siamo riusciti davvero a ottenere i metadati necessari per fare qualcosa di significativo, nonostante lavorassimo con tre ospedali e quantità sufficienti di dati”, ha affermato il dott. Tizhoosh.
Spera in risultati migliori con l’Iran, da cui sta ottenendo scansioni TC per circa 700 pazienti positivi per Covid, ma i dati non hanno etichette adeguate. Il Dr. Tizhoosh sta lavorando con esperti clinici presso l’Università di Ginevra per annotare le immagini in coordinamento con i radiologi, ma i progressi sono lenti.
Matthew Lungren , condirettore dello Stanford Center for Artificial Intelligence in Medicine and Imaging, guida il progetto Radiological Society of North America. Spera di affrontare la mancanza di dati di imaging Covid-19 disponibili con un set di dati annotato in modo uniforme e professionale raccolto da oltre 200 istituzioni mediche in tutto il mondo, tra cui Nord America, Sud America, Europa e Cina.
“Stiamo vedendo molti sforzi ben intenzionati che si concentrano sul rilascio di soluzioni di imaging AI Covid-19 come iniziative” sparare prima, porre domande dopo “”, ha detto il dott. Lungren da casa sua in California, notando che piccoli set di dati e risultati di prestazioni limitate spesso non sono abbastanza rappresentativi della popolazione nel suo insieme per servire come soluzione universale. “Molti di questi sono ben intenzionati, ma senza comprendere i dati alla base dei modelli, la distorsione sottostante può portare a scarse prestazioni che in alcune situazioni possono persino causare danni”.
Ha detto che la task force RSNA è composta da esperti di machine learning, radiologi specialisti toracici e data scientist per garantire che vengano prese in considerazione molte potenziali fonti di parzialità. “Riteniamo che i nostri dati rappresenteranno, alla fine, una distribuzione demografica uniforme dei dati internazionali”, ha affermato il dott. Lungren. Sono rappresentati tutti i continenti tranne l’Antartide.
Il progetto RSNA sta inoltre lavorando a stretto contatto con un’iniziativa analoga di raccolta di dati in Europa per allineare lo schema di annotazione, in modo che i modelli formati su un set di dati siano compatibili con l’altro. Spera che i set di dati consentano una valutazione obiettiva dei numerosi modelli in fase di sviluppo.
“Se avessi un modello che potrebbe semplicemente dire:” Ehi, c’è qualcosa qui che assomiglia a Covid-19, controlla ancora prima di mandare quella persona “o predire quale livello di assistenza potrebbe richiedere il paziente, potrebbe essere di grande aiuto, ” Egli ha detto. “Potrebbe essere fatto istantaneamente e scalare davvero bene.”