I volti delle persone dicono molto meno delle loro emozioni rispetto a quanto pensano le aziende
NelAdagosto, Amazon ha annunciato di aver migliorato la “precisione per il rilevamento delle emozioni” nel suo software di riconoscimento facciale. La tecnologia non solo ha potuto rilevare meglio sette emozioni (felici, tristi, arrabbiate, sorprese, disgustate, calme e confuse) spiegate dall’azienda, ma ha potuto rilevare per la prima volta un’ottava emozione: la paura.
Le principali aziende tecnologiche come Microsoft e Apple, insieme a start-up come Kairos e Affectiva, vendono prodotti simili per rilevare le emozioni . Secondo una stima , questa categoria di servizi relativamente nuova dovrebbe diventare un settore da 25 miliardi di dollari entro il 2023.
La tecnologia che legge le emozioni basandosi solo sulle espressioni facciali sarebbe una svolta sorprendente. Ad esempio, potrebbe consentire agli esperti di marketing di rilevare le reazioni degli spettatori a film horror, software per auto integrato per valutare se un guidatore è arrabbiato o assonnato e le aziende possono eliminare candidati di lavoro annoiati o non interessati. Potrebbe anche aiutare i bambini con autismo a imparare a riconoscere le emozioni degli altri. Ma negli ultimi mesi, gli scienziati hanno sollevato notevoli dubbi sul fatto che usare i volti per leggere le emozioni sia persino possibile.
Il problema non è che la tecnologia come Amazon Rekognition non riesce a leggere i dettagli dei volti. È che i volti non sono necessariamente segnali accurati di emozioni.
A luglio Lisa Feldman Barrett, professore di psicologia alla Northeastern University, e i suoi colleghi hanno pubblicato una recensione di oltre 1.000 studi che hanno concluso che molti sviluppi nell’intelligenza artificiale e nella visione al computer che mirano a rilevare le emozioni sono sbagliati. E il mese scorso, un professore di informatica all’Università della California del Sud di nome Jonathan Gratch e i suoi colleghi hanno presentato due articoli all’ottava conferenza internazionale sull’informatica affettiva e l’interazione intelligente che ha richiesto una pausa su alcune tecniche di “analisi delle emozioni”.
Il problema non è che la tecnologia come Amazon Rekognition non riesce a leggere i dettagli dei volti. È che i volti non sono necessariamente segnali accurati di emozioni.
L’ immagine sul sito di Amazon in dettaglio la sua caratteristica facciale-analisi mostra una donna sorridente con il software di sovrapposizione etichette su aspetti chiave del suo viso con la scritta “femmina”, “Gli occhi sono aperti”, “sorridente”, e “felice”. La maggior parte di noi interpreterebbe l’immagine allo stesso modo: questa è l’immagine di una donna felice.
Abbiamo intuizioni molto forti su come appaiono le emozioni come la felicità quando vengono mostrate sui volti degli altri. Dall’infanzia, ci vengono insegnate queste associazioni tra espressioni facciali ed emozioni interiori. Anche ora, usiamo gli emoji per mostrare i nostri sentimenti quando il solo testo potrebbe non riuscire a esprimere il nostro sentimento. Guardiamo programmi TV e film che ingrandiscono i volti degli attori per darci un’idea di come si sente il personaggio. E quando vediamo l’immagine di una persona che sorride, ci rendiamo conto che sono felici.
“Le persone sono coerenti … se qualcuno sorride, valuteranno quell’immagine come felice”, dice Gratch, “che è anche il motivo per cui molte persone su Facebook pensano che tutti gli altri siano più felici di loro. Vedono tutti questi volti sorridenti e pensano: “Oh, devono essere felici”. “
Ma solo perché una persona sembra felice non significa che si sentano felici. Il riconoscimento, come altri algoritmi di lettura delle emozioni, è stato addestrato per riconoscere l’aspetto delle persone, non quello che provano. Il sistema combina algoritmi di visione artificiale e apprendimento automatico per identificare le caratteristiche del viso e associarle alle emozioni corrispondenti. I dati che gli ingegneri usano comunemente per addestrare algoritmi su come stabilire tali connessioni includono immagini di persone che presentano espressioniche sono stati annotati con etichette emozionali come “felice” e “triste” da una terza parte addestrata. Per creare set di formazione per gli algoritmi, le aziende hanno commentatori che esaminano una raccolta di immagini e le etichettano come “felici”, “paura”, “rabbia”, ecc. Amazon ha rifiutato di commentare il record su come l’algoritmo di Rekognition è stato addestrato, citando preoccupazioni proprietarie.
Un problema con questo approccio è che i volti posti nelle immagini rappresentano stereotipi di emozioni – imitazioni di ciò che pensiamo che sembrerebbe una persona che esprime un’emozione. Tendiamo a pensare alle emozioni come a una relazione diretta con le espressioni facciali: il più delle volte, le persone sorridono quando sono felici, si accigliano quando sono arrabbiate e aggrottano le sopracciglia quando sono tristi. Riconosciamo anche questi display come espressioni uniche di emozione; supponiamo che un sorriso esprima in modo univoco la felicità e un cipiglio esprima in modo univoco la rabbia. Ma in realtà c’è molta più variazione nel modo in cui le persone esprimono e percepiscono le emozioni.
“Non abbiamo trovato prove di ciò che la gente potrebbe obiettare che dovrebbero essere i segni rivelatori di un’espressione emotiva”, afferma Gratch. Nel suo studio, coppie di partecipanti hanno giocato a un gioco di dilemma di un prigioniero. Organizzati in stanze separate con computer e webcam, venivano istruiti a non parlare tra loro o usare i gesti delle mani, ma venivano incoraggiati a usare le espressioni facciali. In ogni round, i giocatori hanno scelto di “dividere” o “rubare” una palla virtuale. Il gioco ha premiato i giocatori con un guadagno altrettanto elevato se hanno scelto contemporaneamente di dividere (cooperare) ma ha dato un guadagno ancora più alto a un giocatore se hanno scelto di rubare (difetto) mentre il loro avversario ha scelto di dividere. C’è stato un basso profitto se entrambi i giocatori hanno deciso di rubare. Il gioco ha premiato la cooperazione reciproca, ma per risolvere il dilemma se il loro avversario avrebbe cooperato,
È stato un compito impegnativo, anche con questi indizi. “Non si può dedurre se [un risultato] sia stato positivo o negativo per loro”, afferma Gratch. “Questo mina l’idea che guardando l’espressione facciale di qualcuno, puoi capire se mentono.”
L’unica espressione che i giocatori usavano costantemente era un sorriso, anche se avevano perso il round. Invece di sorridere per mostrare piacere, che è quello che potremmo aspettarci, la gente sorrise in risposta a quanto un evento fosse sorprendente per loro. Ad esempio, se pensassero che il loro avversario avrebbe disertato, ma in realtà avrebbero cooperato, l’intensità del loro sorriso avrebbe riflesso l’entità della loro sorpresa. Ma non mostravano la tipica espressione sorpresa a occhi spalancati. “Non erano gli indicatori rivelatori di sorpresa”, dice Gratch. “Sottolinea davvero che ciò che la gente mostra è molto contestuale, molto influenzato da fattori a cui queste macchine non si occupano.”
In questo caso, le espressioni delle persone erano più una reazione alla situazione che una dimostrazione delle loro emozioni interiori. “Molto di ciò che mostriamo non è necessariamente quello che sentiamo”, afferma Gratch.
Il software di rilevamento delle emozioni non è attrezzato per fare questa distinzione. Quando Rekognition analizza l’immagine di una donna che sorride e genera etichette come “sorridente” e “felice”, in realtà sta facendo un bel salto. Il trasferimento delle emozioni delle persone dalle loro espressioni facciali non può essere fatto bene senza avere maggiori informazioni sulla persona e sulla situazione. “Le persone, e anche le macchine, non sono particolarmente brave a rilevare i veri sentimenti da questi schermi facciali”, osserva Gratch.
Il modo in cui le persone esprimono emozione varia tra culture, contesti e persone diverse e una singola emozione può essere espressa in una varietà di espressioni facciali. Le espressioni facciali delle persone spesso seguono convenzioni conversazionali e culturali piuttosto che mostrare qualcosa a che fare con le loro emozioni interiori. Tenendo conto di tutti questi diversi fattori, un “approccio più scientificamente accettato”, sostiene Gratch, “vuol dire solo che questi sono i movimenti facciali”.
Per i suoi studi, ha usato quello che viene chiamato un “sistema di codifica delle unità di azione facciale”, che classifica le espressioni facciali in base ai singoli movimenti muscolari del viso o “unità di azione”. Utilizzato da scienziati e animatori, il metodo valuta le espressioni facciali delle persone in interazioni in tempo reale. Quando una persona sorride, ad esempio, tende a curvare gli angoli della bocca verso l’alto (soprannominato un’unità d’azione 12) e alza le guance, piegando la pelle intorno agli occhi (unità d’azione 6). Gratch spiega: “Piuttosto che dire” sei felice “, diresti,” stai mostrando questi componenti di un sorriso “.”
Quando si tratta di capire cosa provano le altre persone, Gratch ha scoperto che non facciamo affidamento sulle espressioni facciali. Passiamo invece al contesto. Per capire le emozioni del loro avversario, i partecipanti a uno studio successivo hanno cercato spunti contestuali. I giocatori in questo studio sono tornati a rivedere i videoclip di se stessi e del loro partner giocando al gioco del dilemma del prigioniero. Il risultato di un evento li ha informati su come il loro partner deve aver sentito. Ad esempio, se il partner di un partecipante aveva vinto un round a proprie spese, tendeva a valutare le emozioni della propria e della propria partner più negativamente di quanto avrebbero valutato altri eventi con esiti positivi. “Il contesto di ciò che è appena accaduto”, osserva Gratch, “era un migliore predittore di ciò che la gente pensava che l’altra persona provasse rispetto a ciò che mostrava sul loro volto”.
Questi risultati sono in linea con altri studi, afferma il professore di psicologia Barrett, aggiungendo che “mostrano che il contesto influenza fortemente il significato emotivo che le persone inferiscono nei movimenti facciali; di solito, l’impatto del contesto è più potente dei movimenti facciali stessi. ”Cita studi condotti da Hillel Aviezer, uno psicologo della Hebrew University di Gerusalemme. In uno studio , ad esempio, Aviezer e colleghi hanno mescolato e abbinato immagini di giocatori di tennis dopo aver vinto e perso una partita. I partecipanti che hanno visto un’immagine della faccia vincente di un giocatore innestata su un corpo perdente hanno percepito la faccia più negativamente che se vedessero la faccia del giocatore su un corpo vincente. L’emozione associata al corpo ha superato quella del viso del giocatore.
Questi risultati sul contesto sono importanti considerando che i sistemi di riconoscimento delle emozioni come Rekognition si fissano così pesantemente sui volti delle persone. Sono stati addestrati su come gli umani interpretano le immagini fisse, tralasciando la possibilità di rendere conto del più ampio contesto sociale. “In realtà, poiché questi dati non includono alcuna informazione importante sul contesto in cui sorgono le espressioni facciali delle persone”, afferma Gratch, “questi algoritmi stanno solo imparando ciò che un’altra persona penserebbe che un’immagine del volto di qualcuno sta mostrando senza alcun contesto. ”
“Questa tecnologia di riconoscimento delle espressioni facciali sta rilevando qualcosa – semplicemente non è molto ben correlata con ciò per cui le persone vogliono usarla. Quindi faranno solo errori e, in alcuni casi, quegli errori causeranno danni. “
Amazon potrebbe rendersi conto che la sua tecnologia di riconoscimento delle emozioni ha dei limiti. Un disclaimer sul sito Web dell’azienda recita: “L’API sta solo determinando l’aspetto fisico del volto di una persona. Non è una determinazione dello stato emotivo interno della persona e non dovrebbe essere usato in questo modo. ”Tuttavia, frasi come“ analisi delle emozioni ”e nomi come“ Rekognition ”possono essere fuorvianti nel modo in cui la tecnologia viene commercializzata. Una descrizione più appropriata sarebbe “riconoscimento delle espressioni”.
“Qualsiasi azienda che attualmente afferma di riconoscere l’emozione sta confondendo le misurazioni (ad esempio, un cipiglio) con l’interpretazione del significato di tali misurazioni (ad esempio, rabbia)”, afferma Barrett. Gratch identifica la tecnologia di riconoscimento delle emozioni con un poligrafo, il “rivelatore di verità” che è stato bandito dall’uso nelle testimonianze giudiziarie nella maggior parte degli stati da quando è stato screditato in una sentenza della Corte Suprema del 1998 . “Non è un rilevatore di verità; è un rilevatore di eccitazione “, dice Gratch. “In un certo senso, questa tecnologia di riconoscimento delle espressioni facciali sta prendendo piede su qualcosa – semplicemente non è molto ben correlata con ciò per cui le persone vogliono usarla. Quindi faranno solo errori e, in alcuni casi, quegli errori causeranno danni. “
Amazon è stata messa sotto accusa per aver venduto Rekognition ad agenzie governative , tra cui secondo quanto riferito riferito all’Immigrazione e all’applicazione della dogana e per il suo possibile contratto da $ 950 milioni con Border Patrol . I clienti di Amazon possono utilizzare Rekognition per informare le loro decisioni sulle persone. È possibile che le autorità possano indirizzare ingiustamente le persone se mostrano l’espressione sbagliata al momento sbagliato. Anche senza la tecnologia di riconoscimento, confondere l’espressione con l’emozione può avere conseguenze: nel suo libro How Emotions Are Made , Barrett descrive come giudici e giurati hanno usato l’espressione facciale di un imputato per discernere fino a che punto potrebbero sentirsi in colpa o rimorsi.
“Semplicemente non ci sono prove forti a sostegno dell’affermazione che esistono espressioni emotive universali, in modo tale che un certo insieme di movimenti muscolari facciali (ad esempio, un cipiglio) possa essere usato per diagnosticare specificamente lo stato emotivo di una persona (ad esempio, la rabbia) con forte affidabilità “, afferma Barrett. “Presumere diversamente comporterà incomprensioni che possono costare alle persone il loro sostentamento, la loro libertà e persino la loro vita”.
Non importa quanto sofisticato diventi un algoritmo di lettura delle emozioni, un sistema che utilizza solo tecniche di analisi facciale per discernere le emozioni delle persone alla fine non farà ciò che si suppone faccia. Gratch informa i clienti di essere consapevoli dei limiti della tecnologia, citando un’analogia usata da Arvid Kappas, psicologo dell’Università Jacobs di Brema, in Germania, per comunicare come vengono commercializzate queste tecniche. Kappas identifica il falso presupposto che i nostri volti mostrino le nostre emozioni al detto “la luna è fatta di formaggio”. Immagina uno scenario, dice, in cui formiamo un algoritmo con esempi di formaggio e rocce per sviluppare un riconoscitore di formaggio. Quindi lo puntiamo verso il cielo e vediamo, se la luna è lì, se il riconoscitore riconosce il formaggio. L’analogia di Kappas rivela quanto sia rudimentale la tecnologia commerciale di riconoscimento delle emozioni.
“Stiamo addestrando le persone su qualcosa che in realtà non riguarda ciò che provano e poi lo puntiamo alle persone e diciamo: ‘Vedi, provano questa emozione'”, dice Gratch, “quando in realtà lo stiamo allenando su ciò che loro” stai mostrando, che non è la stessa cosa che stanno provando. “