Insegnare all’IA a porre domande cliniche
I ricercatori hanno fatto passi da gigante verso modelli di apprendimento automatico che possono aiutare i medici a trovare in modo più efficiente le informazioni nella cartella clinica di un paziente

 

CAMBRIDGE, MA – I medici spesso interrogano la cartella clinica elettronica di un paziente per informazioni che lo aiutino a prendere decisioni terapeutiche, ma la natura ingombrante di queste cartelle ostacola il processo. La ricerca ha dimostrato che anche quando un medico è stato addestrato all’uso di una cartella clinica elettronica (EHR), trovare una risposta a una sola domanda può richiedere, in media, più di otto minuti.

Più tempo i medici devono dedicare alla navigazione in un’interfaccia EHR spesso goffa, meno tempo hanno a disposizione per interagire con i pazienti e fornire il trattamento.

I ricercatori hanno iniziato a sviluppare modelli di apprendimento automatico in grado di semplificare il processo trovando automaticamente le informazioni necessarie ai medici in una cartella clinica elettronica. Tuttavia, la formazione di modelli efficaci richiede enormi set di dati di questioni mediche rilevanti, spesso difficili da trovare a causa delle restrizioni sulla privacy. I modelli esistenti faticano a generare domande autentiche, quelle che verrebbero poste da un medico umano, e spesso non sono in grado di trovare risposte corrette con successo.

Per superare questa carenza di dati, i ricercatori del MIT hanno collaborato con esperti medici per studiare le domande poste dai medici durante la revisione delle cartelle cliniche elettroniche. Quindi, hanno costruito un set di dati pubblicamente disponibile di oltre 2.000 domande clinicamente rilevanti scritte da questi esperti medici.

Quando hanno utilizzato il loro set di dati per addestrare un modello di apprendimento automatico per generare domande cliniche, hanno scoperto che il modello poneva domande di alta qualità e autentiche, rispetto alle domande reali di esperti medici, più del 60% delle volte.

Con questo set di dati, intendono generare un gran numero di domande mediche autentiche e quindi utilizzare tali domande per addestrare un modello di apprendimento automatico che aiuterebbe i medici a trovare le informazioni ricercate nella cartella di un paziente in modo più efficiente.

“Duemila domande possono sembrare tante, ma quando guardi ai modelli di apprendimento automatico che vengono addestrati al giorno d’oggi, hanno così tanti dati, forse miliardi di punti dati. Quando si addestrano modelli di apprendimento automatico per funzionare in contesti sanitari, è necessario essere davvero creativi perché c’è una tale mancanza di dati”, afferma l’autore principale Eric Lehman, uno studente laureato presso il Computer Science and Artificial Intelligence Laboratory (CSAIL). .

L’autore senior è Peter Szolovits, professore presso il Dipartimento di Ingegneria Elettrica e Informatica (EECS) che dirige il Clinical Decision-Making Group in CSAIL ed è anche membro del MIT-IBM Watson AI Lab. Il documento di ricerca, una collaborazione tra i coautori del MIT, il MIT-IBM Watson AI Lab, IBM Research e i medici e gli esperti medici che hanno contribuito a creare domande e hanno partecipato allo studio, sarà presentato alla conferenza annuale del Nord Capitolo americano dell’Associazione per la linguistica computazionale.

“I dati realistici sono fondamentali per i modelli di addestramento che sono rilevanti per l’attività ma difficili da trovare o creare”, afferma Szolovits. “Il valore di questo lavoro sta nella raccolta accurata delle domande poste dai medici sui casi dei pazienti, da cui siamo in grado di sviluppare metodi che utilizzano questi dati e modelli linguistici generali per porre ulteriori domande plausibili”.

Carenza di dati

I pochi grandi set di dati di domande cliniche che i ricercatori sono stati in grado di trovare presentavano una serie di problemi, spiega Lehman. Alcuni erano composti da domande mediche poste dai pazienti sui forum web, che sono ben lontane dalle domande dei medici. Altri set di dati contenevano domande prodotte da modelli, quindi sono per lo più identici nella struttura, rendendo molte domande irrealistiche.

“La raccolta di dati di alta qualità è davvero importante per svolgere attività di apprendimento automatico, soprattutto in un contesto sanitario, e abbiamo dimostrato che può essere fatto”, afferma Lehman.

Per costruire il loro set di dati, i ricercatori del MIT hanno lavorato con medici praticanti e studenti di medicina nel loro ultimo anno di formazione. Hanno fornito a questi esperti medici più di 100 riepiloghi delle dimissioni EHR e hanno detto loro di leggere un riepilogo e porre qualsiasi domanda potessero avere. I ricercatori non hanno posto alcuna restrizione sui tipi o sulle strutture delle domande nel tentativo di raccogliere domande naturali. Hanno anche chiesto agli esperti medici di identificare il “testo trigger” nell’EHR che li ha portati a porre ogni domanda.

Ad esempio, un esperto medico potrebbe leggere una nota nell’EHR in cui si afferma che la storia medica passata di un paziente è significativa per il cancro alla prostata e l’ipotiroidismo. Il testo trigger “cancro alla prostata” potrebbe indurre l’esperto a porre domande come “data della diagnosi?” o “qualche intervento fatto?”

Hanno scoperto che la maggior parte delle domande si concentrava su sintomi, trattamenti o risultati dei test del paziente. Sebbene questi risultati non siano stati inaspettati, quantificare il numero di domande su ciascun argomento generale li aiuterà a costruire un set di dati efficace da utilizzare in un ambiente clinico reale, afferma Lehman.

Dopo aver compilato il loro set di dati di domande e il relativo testo trigger, lo hanno utilizzato per addestrare modelli di apprendimento automatico per porre nuove domande in base al testo trigger.

Quindi gli esperti medici hanno determinato se quelle domande erano “buone” utilizzando quattro parametri: comprensibilità (la domanda ha senso per un medico umano?), banalità (la domanda è troppo facilmente risolvibile dal testo di attivazione?), rilevanza medica (è ha senso porre questa domanda in base al contesto?) e alla rilevanza per il trigger (il trigger è correlato alla domanda?).

Causa di preoccupazione

I ricercatori hanno scoperto che quando a un modello veniva fornito un testo trigger, era in grado di generare una buona domanda il 63% delle volte, mentre un medico umano poneva una buona domanda l’80% delle volte.

Hanno anche addestrato modelli per recuperare risposte a domande cliniche utilizzando i set di dati pubblicamente disponibili che avevano trovato all’inizio di questo progetto. Quindi hanno testato questi modelli addestrati per vedere se potevano trovare risposte alle domande “buone” poste da esperti medici umani.

I modelli sono stati in grado di recuperare solo il 25% circa delle risposte alle domande generate dai medici.

“Quel risultato è davvero preoccupante. Quelli che la gente pensava fossero modelli con buone prestazioni erano, in pratica, semplicemente orribili perché le domande di valutazione su cui stavano testando non erano buone all’inizio”, afferma Lehman.

Il team sta ora applicando questo lavoro verso il loro obiettivo iniziale: costruire un modello in grado di rispondere automaticamente alle domande dei medici in una cartella clinica elettronica. Per il passaggio successivo, utilizzeranno il loro set di dati per addestrare un modello di apprendimento automatico in grado di generare automaticamente migliaia o milioni di buone domande cliniche, che possono quindi essere utilizzate per addestrare un nuovo modello per la risposta automatica alle domande.

Anche se c’è ancora molto lavoro da fare prima che quel modello possa diventare realtà, Lehman è incoraggiato dai forti risultati iniziali che il team ha dimostrato con questo set di dati.

###

Questa ricerca è stata supportata, in parte, dal MIT-IBM Watson AI Lab

Di ihal