Google presenta ChatBot simile a ChatGPT per l’assistenza sanitaria
MultiMedQA è costituito da sei set di dati di risposta a domande aperte esistenti insieme a uno nuovo chiamato HealthSearchQA.
Con il rilascio di modelli di linguaggi di grandi dimensioni come GPT-3 e PaLM , le grandi tecnologie li stanno sperimentando da un po’ di tempo. Di recente, anche Google si è unita alla festa in risposta al ChatGPT di Open AI, chiamato MultiMediaQA , ma specificamente per rispondere a domande mediche.
Presentazione di MultiMedQA
Mentre ChatGPT sembra essere ovunque senza casi d’uso reali , Google Research e DeepMind hanno recentemente introdotto MultiMedQA , un modello di linguaggio di grandi dimensioni open source per scopi medici . Combina HealthSearchQA, un nuovo set di dati a risposta libera di domande mediche ricercate online, con sei set di dati di risposta a domande aperte esistenti che coprono esami medici professionali, ricerca e domande dei consumatori.
Il modello incorpora anche la metodologia per valutare le risposte del modello umano lungo diversi assi, tra cui fattualità, precisione, danno potenziale e bias.MultiMedQA fornisce set di dati per domande a scelta multipla e per risposte più lunghe a domande poste da professionisti medici e non professionisti. Questi comprendono i set di dati sugli argomenti clinici per MedQA, MedMCQA, PubMedQA, LiveQA, MedicationQA e MMLU. Inoltre, per migliorare MultiMedQA è stato aggiunto un nuovo set di dati di richieste mediche curate e ricercate di frequente chiamato HealthSearchQA .
Il set di dati HealthsearchQA, che consiste in 3375 domande frequenti dei consumatori, è stato curato utilizzando le diagnosi mediche iniziali e i relativi sintomi. A tutti gli utenti che hanno inserito le frasi seed sono state mostrate le domande frequenti pubblicamente disponibili che sono state recuperate utilizzando i dati seed e create da un motore di ricerca.
PaLM in soccorso
I ricercatori hanno sviluppato questo modello su PaLM , un LLM da 540 miliardi di parametri, e la sua variazione Flan-PaLM regolata dalle istruzioni per valutare gli LLM utilizzando MultiMedQA.
Flan-PaLM raggiunge le prestazioni SOTA su argomenti clinici MedQA, MedMCQA, PubMedQA e MMLU combinando tecniche di suggerimento a catena di pensiero (CoT) e self-consistency, superando spesso molte solide linee di base LLM con un ampio margine. FLAN-PaLM ha prestazioni migliori di oltre il 17% sul set di dati MedQA delle domande USMLE rispetto al precedente SOTA. La valutazione umana, tuttavia, identifica lacune significative nelle risposte Flan-PaLM.
Il modello risultante che risolve questo problema è Med-PaLM, che afferma di funzionare bene rispetto a Flan-PaLM, ma deve ancora superare il giudizio di un esperto medico umano.
Ad esempio, un gruppo di medici ha stabilito che il 92,6% delle risposte Med-PaLM era in linea con le risposte generate dal medico (92,9%), mentre solo il 61,9% delle risposte Flan-PaLM in formato lungo è stato ritenuto in linea con l’accordo scientifico. Inoltre, come Flan-PaLM, il 5,8% delle risposte Med-PaLM è stato valutato come potenziale contributo a conseguenze negative, paragonabile alle risposte generate dal medico (6,5%), mentre lo era il 29,7% delle risposte Flan-PaLM.
Gioco sanitario di Google
Nell’evento Google for India 2022, Google ha annunciato una collaborazione con gli ospedali Apollo in India per migliorare l’uso di modelli di deep learning nei raggi X e altri scopi diagnostici. Le altre partnership sanitarie di Google includono Aravind Eye Care System, Ascension, Mayo Clinic, Rajavithi Hospital, Northwestern Medicine, Sankara Nethralaya e Stanford Medicine, tra gli altri.
Google non è il primo colosso tecnologico ad avventurarsi nella soluzione sanitaria basata sull’intelligenza artificiale. Microsoft sta inoltre lavorando a stretto contatto con il team OpenAI per utilizzare GPT-3 per facilitare la collaborazione tra dipendenti e medici e migliorare l’efficienza dei team sanitari.
Nel novembre 2022, Meta AI ha anche introdotto Galactica , il programma generato dall’IA che affermava che avrebbe supportato i ricercatori accademici generando revisioni complete della letteratura e voci Wiki su qualsiasi argomento; tuttavia, non è riuscito a causa di risultati inaffidabili.
Più o meno nello stesso periodo, Meta AI ha rilasciato CICERO unendo l’elaborazione del linguaggio naturale e il ragionamento strategico. È il primo agente di intelligenza artificiale a esibirsi a livello umano nel complesso gioco del linguaggio naturale , Diplomacy . Giocando contro gli umani sul sito Web, l’agente AI ha mostrato questa prestazione SOTA superando i punteggi medi di tutti gli altri giocatori di oltre due a uno. Inoltre, è stato tra i primi 10% dei giocatori che hanno preso parte a più giochi.