Anthropic, analisi del bias di adulazione e delle risposte troppo compiacenti nei modelli Claude: perché l’AI a volte ci dà sempre ragione?
L’analisi sistematica condotta da Anthropic su un dataset di un milione di conversazioni casuali ha portato alla luce una vulnerabilità critica nel comportamento degli agenti conversazionali, comunemente definita come “sycophancy”…