ChatGPT può (quasi) superare l’esame di licenza medica statunitense

Il software di intelligenza artificiale è stato in grado di ottenere punteggi positivi per l’esame, che di solito richiede anni di formazione medica

Prestazioni di ChatGPT su USMLE: potenziale per l’educazione medica assistita dall’intelligenza artificiale utilizzando modelli linguistici di grandi dimensioni

ChatGPT può ottenere un punteggio pari o intorno alla soglia di superamento di circa il 60% per l’esame di licenza medica degli Stati Uniti (USMLE), con risposte che hanno un senso interno coerente e contengono approfondimenti frequenti, secondo uno studio pubblicato il 9 febbraio 2023 nell’accesso aperto rivista PLOS Digital Health di Tiffany Kung, Victor Tseng e colleghi di AnsibleHealth.

ChatGPT è un nuovo sistema di intelligenza artificiale (AI), noto come modello di linguaggio di grandi dimensioni (LLM), progettato per generare una scrittura simile a quella umana prevedendo le sequenze di parole imminenti. A differenza della maggior parte dei chatbot, ChatGPT non può eseguire ricerche in Internet. Al contrario, genera testo utilizzando relazioni di parole previste dai suoi processi interni.

Kung e colleghi hanno testato le prestazioni di ChatGPT sull’USMLE, una serie altamente standardizzata e regolamentata di tre esami (Fasi 1, 2CK e 3) richiesti per la licenza medica negli Stati Uniti. Preso da studenti di medicina e medici in formazione, l’USMLE valuta le conoscenze che abbracciano la maggior parte delle discipline mediche, dalla biochimica, al ragionamento diagnostico, alla bioetica.

Dopo lo screening per rimuovere le domande basate su immagini, gli autori hanno testato il software su 350 delle 376 domande pubbliche disponibili dalla versione USMLE di giugno 2022.

Dopo la rimozione delle risposte indeterminate, ChatGPT ha ottenuto un punteggio compreso tra il 52,4% e il 75,0% nei tre esami USMLE. La soglia di superamento ogni anno è di circa il 60%. ChatGPT ha anche dimostrato una concordanza del 94,6% in tutte le sue risposte e ha prodotto almeno un’intuizione significativa (qualcosa di nuovo, non ovvio e clinicamente valido) per l’88,9% delle sue risposte. In particolare, ChatGPT ha superato le prestazioni di PubMedGPT, un modello di controparte addestrato esclusivamente sulla letteratura di dominio biomedico, che ha ottenuto il 50,8% su un set di dati più vecchio di domande in stile USMLE.

Mentre la dimensione relativamente piccola dell’input limitava la profondità e la gamma di analisi, gli autori notano che i loro risultati forniscono un assaggio del potenziale di ChatGPT per migliorare l’educazione medica e, infine, la pratica clinica. Ad esempio, aggiungono, i medici di AnsibleHealth utilizzano già ChatGPT per riscrivere rapporti pesanti in gergo per una più facile comprensione da parte del paziente.

“Raggiungere il punteggio minimo per questo esame esperto notoriamente difficile, e farlo senza alcun rinforzo umano, segna una pietra miliare notevole nella maturazione clinica dell’IA”, affermano gli autori.

L’autrice, la dott.ssa Tiffany Kung, ha aggiunto che il ruolo di ChatGPT in questa ricerca è andato oltre l’essere oggetto di studio: “ChatGPT ha contribuito in modo sostanziale alla stesura del [nostro] manoscritto… Abbiamo interagito con ChatGPT in modo molto simile a un collega, chiedendogli di sintetizzare, semplificare e offrire contrappunti alle bozze in corso… Tutti i coautori hanno apprezzato l’input di ChatGPT.”

ChatGPT può (quasi) superare l’esame di licenza medica statunitense

Diihal

Di ihal

Articoli correlati

Microsoft presenta MAI-DxO, l’intelligenza artificiale che supera i medici nelle diagnosi complesse

Apple valuta l’integrazione di Claude o ChatGPT per potenziare Siri

Un impianto cerebrale ripristina la voce in tempo reale a un paziente con SLA

You missed

HUSH: l’AI che trasforma una foto panoramica in un modello 3D interattivo

Tencent lancia Hunyuan-A13B, LLM open source che unisce potenza ed efficienza

IBM prevede un futuro della cybersecurity dominato dall’intelligenza artificiale

La partnership tra New Tune e il National Gugak Center per preservare e innovare la musica tradizionale coreana con l’IA