MultiMedQA di Google Research e DeepMind

Google presenta ChatBot simile a ChatGPT per l’assistenza sanitaria
MultiMedQA è costituito da sei set di dati di risposta a domande aperte esistenti insieme a uno nuovo chiamato HealthSearchQA.

Con il rilascio di modelli di linguaggi di grandi dimensioni come GPT-3 e PaLM , le grandi tecnologie li stanno sperimentando da un po’ di tempo. Di recente, anche Google si è unita alla festa in risposta al ChatGPT di Open AI, chiamato MultiMediaQA , ma specificamente per rispondere a domande mediche.

Presentazione di MultiMedQA
Mentre ChatGPT sembra essere ovunque senza casi d’uso reali , Google Research e DeepMind hanno recentemente introdotto MultiMedQA , un modello di linguaggio di grandi dimensioni open source per scopi medici . Combina HealthSearchQA, un nuovo set di dati a risposta libera di domande mediche ricercate online, con sei set di dati di risposta a domande aperte esistenti che coprono esami medici professionali, ricerca e domande dei consumatori.

Il modello incorpora anche la metodologia per valutare le risposte del modello umano lungo diversi assi, tra cui fattualità, precisione, danno potenziale e bias.MultiMedQA fornisce set di dati per domande a scelta multipla e per risposte più lunghe a domande poste da professionisti medici e non professionisti. Questi comprendono i set di dati sugli argomenti clinici per MedQA, MedMCQA, PubMedQA, LiveQA, MedicationQA e MMLU. Inoltre, per migliorare MultiMedQA è stato aggiunto un nuovo set di dati di richieste mediche curate e ricercate di frequente chiamato HealthSearchQA .

Il set di dati HealthsearchQA, che consiste in 3375 domande frequenti dei consumatori, è stato curato utilizzando le diagnosi mediche iniziali e i relativi sintomi. A tutti gli utenti che hanno inserito le frasi seed sono state mostrate le domande frequenti pubblicamente disponibili che sono state recuperate utilizzando i dati seed e create da un motore di ricerca.

PaLM in soccorso
I ricercatori hanno sviluppato questo modello su PaLM , un LLM da 540 miliardi di parametri, e la sua variazione Flan-PaLM regolata dalle istruzioni per valutare gli LLM utilizzando MultiMedQA.

Flan-PaLM raggiunge le prestazioni SOTA su argomenti clinici MedQA, MedMCQA, PubMedQA e MMLU combinando tecniche di suggerimento a catena di pensiero (CoT) e self-consistency, superando spesso molte solide linee di base LLM con un ampio margine. FLAN-PaLM ha prestazioni migliori di oltre il 17% sul set di dati MedQA delle domande USMLE rispetto al precedente SOTA. La valutazione umana, tuttavia, identifica lacune significative nelle risposte Flan-PaLM.

Il modello risultante che risolve questo problema è Med-PaLM, che afferma di funzionare bene rispetto a Flan-PaLM, ma deve ancora superare il giudizio di un esperto medico umano.

Ad esempio, un gruppo di medici ha stabilito che il 92,6% delle risposte Med-PaLM era in linea con le risposte generate dal medico (92,9%), mentre solo il 61,9% delle risposte Flan-PaLM in formato lungo è stato ritenuto in linea con l’accordo scientifico. Inoltre, come Flan-PaLM, il 5,8% delle risposte Med-PaLM è stato valutato come potenziale contributo a conseguenze negative, paragonabile alle risposte generate dal medico (6,5%), mentre lo era il 29,7% delle risposte Flan-PaLM.

Gioco sanitario di Google

Nell’evento Google for India 2022, Google ha annunciato una collaborazione con gli ospedali Apollo in India per migliorare l’uso di modelli di deep learning nei raggi X e altri scopi diagnostici. Le altre partnership sanitarie di Google includono Aravind Eye Care System, Ascension, Mayo Clinic, Rajavithi Hospital, Northwestern Medicine, Sankara Nethralaya e Stanford Medicine, tra gli altri.

Google non è il primo colosso tecnologico ad avventurarsi nella soluzione sanitaria basata sull’intelligenza artificiale. Microsoft sta inoltre lavorando a stretto contatto con il team OpenAI per utilizzare GPT-3 per facilitare la collaborazione tra dipendenti e medici e migliorare l’efficienza dei team sanitari.

Nel novembre 2022, Meta AI ha anche introdotto Galactica , il programma generato dall’IA che affermava che avrebbe supportato i ricercatori accademici generando revisioni complete della letteratura e voci Wiki su qualsiasi argomento; tuttavia, non è riuscito a causa di risultati inaffidabili.

Più o meno nello stesso periodo, Meta AI ha rilasciato CICERO unendo l’elaborazione del linguaggio naturale e il ragionamento strategico. È il primo agente di intelligenza artificiale a esibirsi a livello umano nel complesso gioco del linguaggio naturale , Diplomacy . Giocando contro gli umani sul sito Web, l’agente AI ha mostrato questa prestazione SOTA superando i punteggi medi di tutti gli altri giocatori di oltre due a uno. Inoltre, è stato tra i primi 10% dei giocatori che hanno preso parte a più giochi.

MultiMedQA di Google Research e DeepMind

Diihal

Di ihal

Articoli correlati

La FDA approva il nuovo algoritmo AI di Natural Cycles per la contraccezione digitale

AIFA stabilisce le regole per usare l’intelligenza artificiale nella promozione dei farmaci

L’intelligenza artificiale ricostruisce il DNA dei patogeni e la diffusione delle pandemie antiche

Ultimi Post

Conversazioni e Artifacts di Claude sono comparsi nei risultati di Google attraverso i link pubblici

OpenAI sospende il modello Erdős dopo ripetute evasioni della sandbox durante i test interni

Google AI Overviews compare ormai nel 43% delle ricerche e sposta gli utenti verso la ricerca conversazionale

Moonshot pubblica i pesi di Kimi K3 con una licenza commerciale basata sui ricavi