Immagine AI

Un recente articolo racconta uno studio italiano che mette al vaglio il potenziale e i limiti dell’intelligenza artificiale in un contesto clinico neurologico, confrontandola direttamente con il lavoro dei medici. Titola con decisione: «L’intelligenza naturale batte ancora quella artificiale». Ma al di là del titolo provocatorio, il risultato offre più spunti di cautela che di trionfo. È utile non solo riassumere quanto emerso, ma analizzare con spirito critico le conclusioni e il valore reale della ricerca: spesso, dietro zaffate mediatiche si nascondono vincoli metodologici che attenuano il peso dei risultati.

Lo studio in questione è stato pubblicato sul Journal of Medical Informatics Research e condotto da un gruppo dell’Università Statale di Milano in collaborazione con l’ASST Santi Paolo e Carlo. L’obiettivo: verificare quanto modelli generativi noti come ChatGPT e Gemini, non specificamente addestrati in neurologia, riuscissero a formulare diagnosi in un contesto simile a una prima visita neurologica.

Sono stati coinvolti 28 pazienti anonimi che si sono presentati alla clinica neurologica. I neurologi, nel confronto, hanno raggiunto un’accuratezza diagnostica del ~ 75%, mentre ChatGPT si è fermato al 54% e Gemini al 46%. Inoltre, i sistemi IA tendevano a prescrivere esami diagnostici in eccesso, in circa il 17-25% dei casi.

È importante notare che i modelli utilizzati erano versioni pubbliche e non specificamente ottimizzate per applicazioni mediche: non erano “modelli clinici”, ma strumenti generali. Gli autori riconoscono che l’IA può essere utile come supporto, ma ribadiscono che “non è ancora pronta per prendere decisioni cliniche autonome” — almeno nel dominio complesso della neurologia.

Il titolo dell’articolo — “l’intelligenza naturale batte ancora quella artificiale” — suona come una sentenza: l’uomo vince, l’IA perde. Ma non è detto che lo studio lo supporti in senso assoluto. Ecco alcune riflessioni critiche:

  • Il campione è molto limitato: 28 pazienti non permettono di generalizzare i risultati. In clinica, per validare un modello diagnostico servono dataset molto più estesi, diversificati per età, condizioni, comorbilità.
  • I modelli non erano “medici”: non erano addestrati specificamente per il dominio neurologico, non conoscevano le sfumature cliniche, il contesto locale del paziente, i dati non strutturati tipici (quali esami, immagini, anamnesi dettagliata).
  • L’accuratezza in diagnosi neurologica è un concetto complesso: non basta “indovinare la malattia”, ma valutare stadi, varianti, coesistenza di sintomi, differenziazioni che richiedono esperienza clinica e conoscenze specialistiche.
  • L’IA ha tendenza alla sovra-prescrizione diagnostica nei casi esaminati: questo è un problema serio. Se un modello (non adeguatamente regolato) suggerisce troppi esami, si rischiano sprechi, ansietà nel paziente, e carico inutile sul sistema sanitario.
  • Gli autori stessi dichiarano che i modelli erano “generici” e non addestrati in medicina. Quindi il risultato è forse più un “test zero” che un confronto definitivo.

Il confronto con la neurologia è particolarmente severo per l’IA: è un campo dove le sfumature cliniche, l’interpretazione di sintomi soggettivi, la conoscenza contestuale del paziente e la capacità di integrare dati diversi (clinici, radiologici, elettrofisiologici) fanno la differenza. Alcune ragioni per cui l’IA ancora arranca:

  • Dati multimodali e complessi: in neurologia non ci sono solo parole o sintomi, ma immagini (risonanze, TAC), segnali, esami elettrofisiologici, dati longitudinali. Integrare tutto ciò richiede modelli complessi e modelli “ibridi” che possono combinare reti neurali con conoscenza medica.
  • Scarso “ground truth” uniforme: in molte patologie neurologiche non esiste una diagnosi “perfetta” in ogni caso — molte condizioni evolvono, cambiano, sfumano. Definire cosa sia “giusto” è difficile.
  • Varietà e rarità: alcune patologie neurologiche sono rare, con pochi casi disponibili. Addestrare modelli robusti richiede grandi dataset, che spesso non esistono.
  • Cambiamento e imprevedibilità: i pazienti cambiano, emergono nuovi sintomi, condizioni complesse. Un modello statico perde efficacia col tempo se non aggiornato continuamente.
  • Responsabilità clinica: le decisioni mediche hanno implicazioni etiche, legali, morali: se un modello sbaglia, a chi imputare la colpa? Questo rende l’adozione clinica più cauta.
  • Supervisione umana necessaria: anche i migliori modelli IA oggi sono strumenti di supporto, non sostituti. La “intelligenza naturale” — esperienza, intuito, sensibilità — deve restare centrale.

Lo studio mette in evidenza che l’IA non è ancora una panacea clinica — specialmente in settori complessi come la neurologia — e che siamo lontani dal concepire modelli completamente autonomi per diagnosi e decisioni mediche. Tuttavia, non significa che l’IA non abbia un ruolo importante: come supporto, filtro, secondo parere, guida nella raccolta dati anticipata può essere utile.

Di Fantasy