I ricercatori di Google e DeepMind hanno recentemente presentato Med-Gemini, una nuova famiglia di modelli di intelligenza artificiale progettati appositamente per la medicina. Questi modelli, basati sui precedenti Gemini 1.0 e 1.5 rilasciati nel 2023, si distinguono per le loro straordinarie capacità nel linguaggio, nella comprensione multimodale e nel ragionamento a lungo contesto.
Med-Gemini si propone di rivoluzionare l’intelligenza artificiale nell’ambito medico, offrendo vantaggi significativi in diverse aree, come diagnosi complesse, dialogo medico multimodale e analisi approfondita delle cartelle cliniche elettroniche. I ricercatori hanno adattato i modelli Gemini per il settore medico utilizzando varie tecniche, tra cui l’autoformazione integrata con la ricerca web, il tuning multimodale e codificatori personalizzati.
Per valutare le capacità di Med-Gemini, i ricercatori hanno eseguito una serie di test su 25 compiti medici diversi, utilizzando 14 parametri di riferimento. I risultati sono stati sorprendenti: Med-Gemini ha stabilito nuovi record su 10 parametri di riferimento. Ad esempio, su un compito come MedQA, che valuta la capacità di rispondere a domande mediche, ha raggiunto un’accuratezza del 91,1%, superando il precedente record del 4,6%. Inoltre, nei compiti multimodali, i modelli hanno superato GPT-4 di ben il 44,5%.
Oltre alle metriche di valutazione, Med-Gemini ha dimostrato di essere estremamente utile nella pratica medica reale, superando gli esperti umani in compiti come il riassunto di documenti medici e la generazione di lettere di riferimento. In particolare, ha mostrato capacità eccezionali nell’analisi di contesti complessi, come recuperare informazioni da lunghe cartelle cliniche.
La natura delicata dei dati medici e l’importanza della sicurezza richiedono un’attenta messa a punto dei modelli, come sottolineato nel documento. I ricercatori hanno migliorato le capacità dei modelli nell’utilizzo della ricerca web e hanno introdotto strategie di ricerca guidate dall’incertezza del tempo di inferenza, rendendo i risultati più accurati e affidabili per compiti di ragionamento clinico complessi.
Le capacità multimodali di Med-Gemini consentono ai modelli di elaborare una vasta gamma di dati medici, tra cui testi, immagini, video e persino dati sensoriali grezzi come elettrocardiogrammi. Inoltre, questi modelli possono impegnarsi in dialoghi medici multimodali, richiedendo e fornendo informazioni aggiuntive, come immagini, per supportare il loro ragionamento. Queste caratteristiche promettono di migliorare le interazioni tra operatori sanitari e pazienti, rendendole più naturali e complete.
Google ha già dimostrato il suo impegno nello sviluppo di soluzioni avanzate di intelligenza artificiale nel settore sanitario, con modelli come Med-PaLM 2, AlphaFold e Flan-PaLM che stanno ottenendo successi sul campo.