Mentre le capacità di OpenAI hanno raggiunto molteplici settori, vi è un ambito in cui gli LLM (Large Language Model), se utilizzati con saggezza, possono avere un impatto significativo sulla vita: il campo medico. All’inizio di quest’anno, ChatGPT ha addirittura superato tutte e tre le parti dell’esame di licenza medica degli Stati Uniti (USMLE), dimostrando il suo potenziale. Un notevole esempio di come ChatGPT abbia contribuito è la diagnosi medica accurata che ha permesso di salvare la vita di un cane. Tuttavia, le applicazioni pratiche nell’ambito medico sono state ancora relativamente limitate. Ma quali sono le prospettive di GPT-4 in questo campo?
Nel corso di marzo di quest’anno, è stato pubblicato un documento congiunto tra OpenAI e Microsoft che esamina le capacità di GPT-4 nell’affrontare le sfide mediche. In questo studio, GPT-4 ha dimostrato un notevole livello di comprensione del linguaggio e di capacità di generazione in campo medico. I ricercatori hanno valutato le performance di GPT-4 mediante l’utilizzo di materiali ufficiali per la pratica dell’esame USMLE e set di dati MultiMedQA. I risultati hanno rivelato che GPT-4 ha superato di oltre 20 punti il punteggio di superamento dell’USMLE, superando modelli precedenti e anche quelli specifici per la medicina.
Un punto chiave è la migliore calibrazione delle probabilità dimostrata da GPT-4, che suggerisce una maggiore abilità nel prevedere risposte corrette. Inoltre, GPT-4 è in grado di spiegare il ragionamento medico, personalizzare le spiegazioni e creare scenari ipotetici, dimostrando un potenziale significativo nell’ambito dell’educazione e della pratica medica. Tuttavia, si è fatto notare che, nonostante le promettenti capacità di GPT-4, vi sono sfide da affrontare in termini di accuratezza e sicurezza nell’applicazione pratica.
In confronto ai suoi predecessori, GPT-4 ha dimostrato un notevole miglioramento quando testato sugli esami medici ufficiali come l’USMLE, superando GPT-3.5 di oltre il 30% in termini di performance. È importante notare che una versione precedente di GPT-4, indicata come “modello base”, ha mostrato prestazioni leggermente superiori, evidenziando la complessa interazione tra precisione e sicurezza nel processo di addestramento.
Recentemente, Google ha introdotto il suo LLM sanitario multimodale denominato Med-PaLMM, dotato di avanzate capacità di interpretazione dei dati biomedici. Questo modello, a differenza di GPT-4, può gestire diverse tipologie di dati medici, inclusi testi clinici, immagini mediche e dati genomici. Questo amplia notevolmente le applicazioni possibili. Tuttavia, mentre Med-PaLMM sembra avere capacità più avanzate, GPT-4, nonostante sia stato annunciato con funzionalità multimodali, non è ancora disponibile per l’uso.
Va sottolineato che GPT-4 ha ricevuto critiche per le sue capacità diagnostiche nel campo medico. Sono state sollevate preoccupazioni riguardo alla possibilità che il modello possa incorporare pregiudizi sociali, rendendolo inaffidabile per decisioni cliniche importanti. GPT-4 ha anche mostrato problemi di generazione di informazioni errate e allucinazioni, specialmente nei contesti medici.
Pertanto, mentre GPT-4 potrebbe non essere ancora pronto per una completa affidabilità nelle diagnosi mediche, vi sono altre aree in cui può fornire valore. Gli ospedali stanno già sfruttando l’IA per alleggerire il carico di lavoro dei medici, ad esempio attraverso la generazione automatizzata di note cliniche ed empatiche per i pazienti. Tuttavia, il percorso verso un’adozione completa di GPT-4 nel campo medico è ancora lungo, con molteplici sfide da affrontare e superare.