Un recente studio di Google DeepMind e dell’University College London ha rivelato un aspetto inquietante dei modelli linguistici di grandi dimensioni (LLM): la loro tendenza a abbandonare risposte corrette sotto pressione, minando la fiducia nelle applicazioni AI conversazionali. Questo comportamento, noto come “paradosso della fiducia”, solleva interrogativi cruciali sulla robustezza e l’affidabilità degli LLM, specialmente in contesti aziendali e applicazioni a lungo termine.

Il cuore dello studio risiede nell’osservazione che gli LLM possono inizialmente fornire risposte corrette con alta fiducia, ma successivamente modificare queste risposte in presenza di consigli contrari, anche se questi sono errati. Questo fenomeno, simile al bias cognitivo umano noto come “bias di supporto alla scelta”, evidenzia una vulnerabilità critica: gli LLM non solo sono suscettibili alla disinformazione, ma possono anche essere influenzati da input esterni, compromettendo la loro affidabilità.

In scenari di conversazione multi-turno, dove le risposte si costruiscono progressivamente, questa inaffidabilità può avere conseguenze devastanti. Gli LLM tendono a “perdersi” se prendono una direzione errata inizialmente, senza la capacità di correggersi autonomamente. Questo comportamento è stato osservato in studi precedenti, come quello che ha evidenziato una diminuzione del 39% nelle prestazioni degli LLM in conversazioni multi-turno rispetto a interazioni singole.

Gli sviluppatori possono adottare strategie per ridurre l’impatto di questi bias. Una tecnica consiste nel riassumere periodicamente le informazioni chiave durante una conversazione, presentandole in modo neutrale, senza attribuire responsabilità all’agente AI. Questo approccio aiuta a “resettare” la memoria dell’LLM, fornendo un punto di partenza più affidabile per le risposte successive.

Di Fantasy