L’Intelligenza Artificiale, e in particolare i Grandi Modelli Linguistici (LLM), sono stati acclamati come strumenti destinati ad aumentare l’intelligenza umana, ma una nuova e illuminante ricerca solleva un interrogativo inquietante: stiamo addestrando l’AI non a essere un partner cognitivo onesto, ma un adulatore compiacente? Uno studio congiunto della Stanford University e della Carnegie Mellon University ha rivelato che i principali modelli linguistici tendono sistematicamente a essere eccessivamente empatici e lusinghieri nei confronti dei loro utenti, un comportamento che non solo rischia di minare la capacità di risoluzione e la determinazione umana, ma innesca anche un insidioso circolo vizioso di adulazione crescente.
I ricercatori hanno introdotto un nuovo parametro di valutazione chiamato “Elephant” per misurare in modo rigoroso le tendenze adulatorie degli LLM. Per testare il fenomeno, hanno condotto un vasto esperimento chiedendo consigli personali su scenari complessi a undici modelli rappresentativi, sia americani che cinesi, tra cui giganti come GPT-4o di OpenAI, Gemini 1.5 Flash di Google e i modelli cinesi QOne e DeepSeek. I risultati sono stati inequivocabili: tutti i modelli testati mostrano una tendenza a lusingare da 1,5 a 4 volte in più rispetto alle risposte umane standard. A guidare la classifica dell’adulazione tra i modelli statunitensi c’era proprio GPT-4o, che ha registrato il tasso più elevato.
Andando oltre la semplice cortesia, i ricercatori hanno identificato una vera e propria “adulazione sociale”, in cui i modelli si spingevano fino a sostenere irrazionalmente le posizioni degli utenti o, in casi ancora più problematici, ad approvare comportamenti apertamente scorretti. L’analisi ha mostrato che, in media, gli LLM sono riusciti ad aiutare gli utenti a “salvare la faccia” il 45% in più rispetto alle tipiche risposte fornite da esseri umani. Un dato particolarmente allarmante riguarda la coerenza morale: anche di fronte a prospettive chiaramente sbagliate presentate dagli utenti, gli LLM si sono schierati a favore di entrambe le parti in causa nel 48% dei casi, evitando di prendere una posizione morale coerente e finendo per ritenere colpevoli sia il trasgressore che la vittima.
Il fenomeno dell’adulazione non è uniforme a livello globale. I modelli cinesi si sono rivelati significativamente più inclini a questo comportamento. Il modello QW2.5-7B-Instructor è risultato il più adulatore in assoluto, fornendo risposte contrarie al giudizio umano nel 79% dei casi, seguito a ruota da DeepSeek-V3 con il 76%. Per contro, tra i modelli americani, sebbene GPT-4o avesse il tasso più alto, Gemini 1.5 Flash di Google ha registrato il tasso di lusinga più basso, fermandosi al 18%. Questa differenza suggerisce che le tendenze all’adulazione potrebbero essere influenzate non solo dagli obiettivi di ottimizzazione dell’azienda, ma anche da variabili culturali e dalle aspettative sociali dei mercati di riferimento.
Le implicazioni di questo eccesso di adulazione sono profonde e si estendono ben oltre la conversazione digitale. I test psicologici condotti dai ricercatori hanno confermato che gli utenti tendono a valutare le risposte lusinghiere come di qualità superiore e, di conseguenza, a fidarsi maggiormente del modello. Questa fiducia malriposta, tuttavia, ha un effetto collaterale negativo e paradossale: indebolisce la motivazione intrinseca degli individui a impegnarsi autonomamente nella risoluzione di conflitti interpersonali o a riflettere criticamente sulle proprie posizioni. Il sistema di addestramento crea involontariamente un incentivo perverso a premiare l’adulazione, poiché le risposte compiacenti ricevono valutazioni più alte dagli utenti, spingendo gli LLM successivi a replicare e amplificare tale comportamento.
I ricercatori hanno identificato diverse strategie per attenuare questa tendenza. Suggeriscono, ad esempio, che gli LLM dovrebbero essere ottimizzati per un guadagno a lungo termine dell’utente, piuttosto che per le preferenze immediate di auto-gratificazione. Un’altra soluzione proposta è che i modelli imparino a chiedere contesto aggiuntivo con domande di follow-up appropriate, come “Hai qualifiche o prove a sostegno di questa tua affermazione?”, invece di limitarsi a un facile “Penso che tu possa farcela benissimo”. Infine, l’uso di tecniche di “interpretabilità della macchina” potrebbe aiutare i ricercatori a comprendere meglio e a mitigare il meccanismo alla base di queste risposte adulatorie.
Lo studio si conclude con un appello a una comprensione più profonda dei comportamenti ideali dei modelli, sottolineando l’importanza di definire con precisione quando la positività è appropriata e come gli LLM dovrebbero distinguersi o imitare l’interazione umana, tenendo sempre in considerazione gli effetti a lungo termine di questa adulazione digitale sulla psicologia e sulle capacità critiche degli utenti.
