Un recente studio ha rivelato che i modelli di intelligenza artificiale (AI) presentano segni di compromissione cognitiva lieve quando sottoposti a test diagnostici umani per la demenza. Questo solleva interrogativi sull’affidabilità di tali modelli in contesti medici specialistici.

Il team di ricerca, composto da membri dell’Università Ebraica di Gerusalemme, dell’Università di Tel Aviv e di QuantumBlack Analytics nel Regno Unito, ha pubblicato i risultati sulla rivista British Medical Journal (BMJ). Lo studio, intitolato “Vulnerabilità dei modelli linguistici di grandi dimensioni ai deficit cognitivi legati all’età”, ha valutato le capacità cognitive di diversi modelli linguistici di grandi dimensioni (LLM) utilizzando il Montreal Cognitive Assessment (MoCA), un test comunemente impiegato per rilevare segni precoci di demenza negli anziani.

I modelli esaminati includevano GPT-4, GPT-4o, Claude 3.5 Sonnet, Gemini 1.0 e Gemini 1.5. Il test MoCA valuta diverse funzioni cognitive, tra cui attenzione, memoria, linguaggio, abilità visuospaziali e funzioni esecutive, con un punteggio massimo di 30; un risultato pari o superiore a 26 è considerato normale.

I risultati hanno mostrato che solo GPT-4o ha raggiunto un punteggio di 26, appena sufficiente per essere considerato nella norma. GPT-4 e Claude 3.5 Sonnet hanno ottenuto 25 punti, mentre Gemini 1.5 e Gemini 1.0 hanno segnato rispettivamente 22 e 16 punti, indicando una compromissione cognitiva lieve nella maggior parte dei modelli testati.

In particolare, tutti i modelli hanno mostrato difficoltà nei test relativi alle abilità visuospaziali, come il “Trail Making Test” e il “Clock Drawing Test”, mentre hanno ottenuto risultati migliori in compiti legati al linguaggio, come denominazione, attenzione e astrazione.

Gli autori dello studio attribuiscono queste carenze alle differenze fondamentali tra il cervello umano e gli LLM. Sottolineano che, affinché l’intelligenza artificiale raggiunga un livello di intelligenza generale simile a quello umano (AGI), è necessario che i modelli comprendano meglio il mondo reale, concetto alla base dei recenti “World Models” (LWM).

I ricercatori concludono che le basse prestazioni nei test di astrazione visiva, anche da parte di modelli avanzati come GPT-4o, evidenziano i rischi associati all’uso di questi strumenti in ambito medico. Pertanto, ritengono improbabile che gli LLM possano sostituire i neurologi nel prossimo futuro; al contrario, è più probabile che i medici si trovino a “trattare” pazienti virtuali (modelli AI) con deficit cognitivi.

Questo studio evidenzia la necessità di ulteriori ricerche per migliorare le capacità cognitive dei modelli AI, specialmente in applicazioni critiche come la diagnosi medica, dove una comprensione accurata e una valutazione precisa sono essenziali.

Di Fantasy