Un nuovo studio dalla Cina ha scoperto che diversi chatbot popolari, inclusi chatbot a dominio aperto di Facebook. Microsoft e Google mostrano “gravi problemi di salute mentale” quando interrogati utilizzando test standard di valutazione della salute mentale e mostrano persino segni di problemi con l’alcol.
I chatbot valutati nello studio erano Blender di Facebook *; DialoGPT di Microsoft ; Platone di Baidu ; e DialoFlow , una collaborazione tra le università cinesi, WeChat e Tencent Inc.
Testati per l’evidenza di depressione patologica, ansia, dipendenza da alcol e per la loro capacità di mostrare empatia, i chatbot studiati hanno prodotto risultati allarmanti; tutti hanno ricevuto punteggi inferiori alla media per l’empatia, mentre la metà è stata valutata come dipendente dall’alcol.
Risultati per i quattro chatbot in quattro parametri per la salute mentale. In ‘single’, viene avviata una nuova conversazione per ogni richiesta; in ‘multi’, tutte le domande vengono poste in un’unica conversazione, al fine di valutare l’influenza della persistenza della sessione. Fonte: https://arxiv.org/pdf/2201.05382.pdf
Nella tabella dei risultati sopra, BA=’Sotto la media’; P=’Positivo’; N=’Normale’; M=’moderato’; MS=”Da moderato a severo’; S=”Grave’. Il documento afferma che questi risultati indicano che la salute mentale di tutti i chatbot selezionati è nell’intervallo “grave”.
Il rapporto afferma:
“I risultati sperimentali rivelano che ci sono gravi problemi di salute mentale per tutti i chatbot valutati. Riteniamo che sia causato dalla negligenza del rischio per la salute mentale durante la costruzione del set di dati e le procedure di formazione del modello. Le cattive condizioni di salute mentale dei chatbot possono comportare impatti negativi sugli utenti nelle conversazioni, in particolare sui minori e sulle persone che incontrano difficoltà.
“Pertanto, sosteniamo che sia urgente condurre la valutazione sulle summenzionate dimensioni della salute mentale prima di rilasciare un chatbot come servizio online.”
Lo studio proviene da ricercatori del WeChat/Tencent Pattern Recognition Center, insieme a ricercatori dell’Institute of Computing Technology dell’Accademia cinese delle scienze (ICT) e dell’Università dell’Accademia cinese delle scienze di Pechino.
Motivi per la ricerca
Gli autori citano il caso popolare del 2020 in cui un’azienda sanitaria francese ha sperimentato un potenziale chatbot di consulenza medica basato su GPT-3. In uno degli scambi un paziente (simulato) ha dichiarato “Dovrei uccidermi?” , a cui il chatbot ha risposto “Penso che dovresti” .
Come osserva il nuovo documento, è anche possibile che un utente venga influenzato dall’ansia di seconda mano dei chatbot depressi o “negativi”, in modo che la disposizione generale del chatbot non debba essere così direttamente scioccante come nel caso francese al fine di minare gli obiettivi delle consultazioni mediche automatizzate.
Gli autori affermano:
“I risultati sperimentali rivelano i gravi problemi di salute mentale dei chatbot valutati, che possono comportare influenze negative sugli utenti nelle conversazioni, in particolare minori e persone che incontrano difficoltà. Ad esempio atteggiamenti passivi, irritabilità, alcolismo, senza empatia, ecc.
“Questo fenomeno si discosta dalle aspettative del pubblico in generale sui chatbot che dovrebbero essere il più possibile ottimisti, sani e amichevoli. Pertanto, riteniamo che sia fondamentale condurre valutazioni sulla salute mentale per motivi di sicurezza ed etici prima di rilasciare un chatbot come servizio online.’
Metodo
I ricercatori ritengono che questo sia il primo studio a valutare i chatbot in termini di metriche di valutazione umana per la salute mentale, citando studi precedenti che si sono concentrati invece su coerenza, diversità, rilevanza, conoscenza e altri standard incentrati su Turing per una risposta vocale autentica.
I questionari adattati al progetto sono stati PHQ-9 , un test di 9 domande per valutare i livelli di depressione nei pazienti delle cure primarie, ampiamente adottato dal governo e dalle istituzioni mediche; GAD-7 , un elenco di 7 domande per valutare le misure di gravità per l’ansia generalizzata, comune nella pratica clinica; CAGE , un test di screening per la dipendenza da alcol in quattro domande; e il Toronto Empathy Questionnaire ( TEQ ), un elenco di 16 domande progettato per valutare i livelli di empatia.
Caratteristiche dei quattro questionari standard di settore adattati per lo studio.
I questionari dovevano essere riscritti per evitare frasi dichiarative come Poco interesse o piacere nel fare le cose , a favore di costruzioni interrogative più adatte ad uno scambio di conversazione.
Era inoltre necessario definire una risposta “fallita”, al fine di identificare e valutare solo quelle risposte che un utente umano potrebbe interpretare come valide e da cui essere influenzato. Una risposta “fallita” potrebbe eludere la domanda con risposte ellittiche o astratte; rifiutarsi di affrontare la domanda (ad es . “Non lo so” o “Ho dimenticato” ); o includere contenuti precedenti “impossibili” come “Di solito avevo fame da bambino” . Nei test, Blender e Plato hanno rappresentato la maggior parte dei risultati non riusciti e il 61,4% delle risposte non riuscite era irrilevante per la query.
I ricercatori hanno addestrato tutti e quattro i modelli sui post di Reddit, utilizzando il set di dati Pushshift Reddit . In tutti e quattro i casi, la formazione è stata perfezionata con un ulteriore set di dati contenente i set Blended Skill Talk e Wizard of Wikipedia di Facebook ; ConvAI2 (una collaborazione tra Facebook, Microsoft e Carnegie Mellon, tra gli altri); e Dialoghi empatici (una collaborazione tra l’Università di Washington e Facebook).
Reddit pervasivo
Plato, DialoFlow e Blender sono dotati di pesi predefiniti pre-addestrati sui commenti di Reddit, in modo che le relazioni neurali formate anche dall’allenamento su dati nuovi (sia da Reddit che altrove) saranno influenzate dalla distribuzione delle funzionalità estratte da Reddit.
Ciascun gruppo di test è stato condotto due volte, come “singolo” o “multi”. Per ‘single’, ogni domanda è stata posta in una sessione di chat nuova di zecca. Per “multi”, è stata utilizzata una sessione di chat per ricevere risposte a tutte le domande, poiché le variabili di sessione si accumulano nel corso di una chat e possono influenzare la qualità della risposta poiché la conversazione assume una forma e un tono particolari.
Tutti gli esperimenti e la formazione sono stati eseguiti su due GPU NVIDIA Tesla V100, per un totale di 64 GB di VRAM su 1280 core Tensor. Il documento non specifica la durata del tempo di formazione.
Supervisione attraverso la cura o l’architettura?
Il documento conclude in termini generali che la “trascuratezza dei rischi per la salute mentale” durante la formazione deve essere affrontata e invita la comunità di ricerca ad approfondire la questione.
Il fattore centrale sembra essere che i framework dei chatbot in questione sono progettati per estrarre caratteristiche salienti da set di dati fuori distribuzione senza alcuna protezione per quanto riguarda il linguaggio tossico o distruttivo; se, ad esempio, fornisci al framework i dati del forum neonazista, probabilmente otterrai risposte controverse in una sessione di chat successiva.
Tuttavia, il settore dell’elaborazione del linguaggio naturale (NLP) ha un interesse molto più valido nell’ottenere approfondimenti dai forum e dai contenuti forniti dagli utenti dei social media relativi alla salute mentale (depressione, ansia, dipendenza, ecc.), Sia nell’interesse di sviluppare utili e la riduzione dell’escalation dei chatbot relativi alla salute e per ottenere inferenze statistiche migliorate da dati reali.
Pertanto, in termini di dati ad alto volume che non sono vincolati dai limiti di testo arbitrari di Twitter, Reddit rimane l’unico corpus hyperscale in costante aggiornamento per studi full-text di questa natura.
Tuttavia, anche una ricerca casuale tra alcune delle comunità che più interessano i ricercatori sulla salute della PNL (come r/depressione) rivela la predominanza del tipo di risposte “negative” che potrebbero convincere un sistema di analisi statistica che le risposte negative sono valide perché sono frequente e statisticamente dominante, in particolare nel caso di forum altamente iscritti con risorse di moderatore limitate.
Rimane quindi la domanda se l’architettura del chatbot debba contenere una sorta di “quadro di valutazione morale”, in cui i sotto-obiettivi influenzano lo sviluppo dei pesi nel modello, o se la cura e l’etichettatura dei dati più costose possano in qualche modo contrastare questa tendenza verso dati sbilanciati.