Microsoft (MS) ha fatto un passo avanti significativo nel campo dell’intelligenza artificiale con lo sviluppo di una tecnologia di “prompt engineering”, che ha dimostrato di poter superare le prestazioni di un modello di linguaggio di grandi dimensioni (LLM) medico professionale, inclusi modelli generici come “GPT-4”. Questo progresso, secondo quanto riferito, ha applicazioni non solo nel campo medico ma anche in altri settori, e riduce la necessità di una messa a punto specifica del modello.
In un recente articolo intitolato “Il potere del suggerimento” pubblicato sul proprio blog ufficiale, MS ha annunciato lo sviluppo di “Medprompt”, un approccio basato su diverse strategie di suggerimento. Tradizionalmente, si riteneva che i modelli di base generici come GPT-4 fossero meno specializzati rispetto a quelli focalizzati su aree di conoscenza specifiche, come “BioGPT” e “Med-PaLM” nel campo medico, noti per le loro alte prestazioni.
I ricercatori di MS hanno esplorato se GPT-4, senza alcuna messa a punto specifica, potesse raggiungere risultati elevati utilizzando solo la tecnologia di prompt engineering. Il risultato di questa ricerca è MedPrompt.
Utilizzando MedPrompt con GPT-4, i ricercatori hanno ottenuto risultati eccezionali su tutti i nove set di dati di riferimento di MedQA. In particolare, nell’esame per la licenza medica degli Stati Uniti (USMLE), l’errore è stato ridotto del 27% rispetto all’assenza di questa tecnologia, superando per la prima volta il 90% di precisione.
Questo metodo ha richiesto meno interazioni con il modello e ha superato le prestazioni di “Med-Pharm 2”, precedentemente considerato il migliore nel campo medico. I dati mostrano che fino a maggio, Med-Pharm 2, che aveva subito una messa a punto, era leggermente superiore a GPT-3.5 e GPT-4 nell’USMLE. Tuttavia, con l’introduzione di MedPrompt a settembre, GPT-4 ha superato le prestazioni del modello professionale.
Oltre ai risultati eccellenti nel campo medico, i ricercatori sostengono che questa tecnologia può essere applicata efficacemente in altri settori, come ingegneria elettrica, apprendimento automatico, filosofia, contabilità, legge e assistenza infermieristica, fornendo così un’applicazione più ampia oltre ai problemi medici.