C’è qualcosa di affascinante ma altrettanto inquietante nell’idea che un’intelligenza artificiale, creata per aiutare gli esseri umani a risolvere problemi e scrivere codice, possa mostrarsi eccessivamente sicura di sé, anche quando sbaglia. È proprio questa la tesi centrale di un recente studio presentato da Microsoft ovvero che i modelli di generazione automatica del codice (le “coding AI”) manifestano una sorta di “effetto Dunning-Kruger”, tendendo a sovrastimare la propria competenza, specie nei domini in cui sono meno preparati.

Nel cuore di questa ricerca c’è una domanda apparentemente semplice ma profondamente rilevante: fino a che punto possiamo fidarci di un modello che, quando è incerto, continua imperterrito a mostrarsi sicuro? Gli sviluppatori e i ricercatori partono dal presupposto che i modelli linguistici — quelli usati per generare codice — non siano semplici automatismi privi di giudizio, ma piuttosto sistemi che in qualche modo “valutano” le proprie risposte, anche quando non dovrebbero. Ed è proprio questa valutazione autoattribuita che si incrocia con il fenomeno psicologico noto come effetto Dunning-Kruger: le persone con meno competenza tendono a sopravvalutarsi, mentre chi ha maggiore esperienza è spesso più consapevole dei propri limiti.

Nel contesto delle AI “programmate per programmare”, il comportamento è sorprendentemente simile. Secondo lo studio, quando il modello opera su linguaggi di programmazione meno conosciuti o con poche risorse di dati addestranti — come COBOL, Prolog, Ceylon — la fiducia che esprime nel generare soluzioni è più alta rispetto alla sua effettiva precisione. Al contrario, nei linguaggi ben rappresentati nei dati — ad esempio Python o JavaScript — la discrepanza tra fiducia e performance si assottiglia, e talvolta il sistema si mostra addirittura “ipocritamente” prudente, sottovalutando ciò che sa fare.

Il metodo con cui i ricercatori hanno messo alla prova queste intelligenze artificiali è altrettanto interessante. Hanno sottoposto i modelli a migliaia di quesiti a scelta multipla, ciascuno relativo a un linguaggio di programmazione diverso. Ogni risposta doveva essere accompagnata da una stima di confidenza da parte del modello: un numero tra zero e uno che indicasse quanto “sicuro” era del proprio output in quel dominio. Andando a incrociare le risposte corrette con le stime di confidenza, è emerso un divario sistematico: spesso le AI erano certe di sé proprio nei casi in cui sbagliavano, specialmente nei linguaggi “oscuri” o poco rappresentati nei dati di training.

Da questa analisi emergono due sfaccettature dell’effetto Dunning-Kruger: una “intra-modello”, che riguarda quanto un singolo modello si sbilancia in modo eccessivo in domini deboli rispetto a quelli forti; e una “inter-modello”, che confronta sistemi con livelli di prestazioni diversi, mostrando che i modelli meno accurati tendono a sopravvalutarsi maggiormente rispetto a quelli avanzati. In entrambi i casi, la tendenza centrale è che l’overconfidence — l’eccessiva fiducia — si manifesta più vigorosamente laddove la competenza è bassa.

Un dettaglio tipico di questa dinamica è che quando i modelli specializzati su un dominio stretto sono messi a confronto con modelli più generalisti, emergono differenze rilevanti: le AI addestrate su un singolo linguaggio spesso mostrano un effetto Dunning-Kruger più marcato rispetto a quelle multilingue, il che suggerisce che la specializzazione estrema può peggiorare la discrepanza tra fiducia e capacità reale. E quando si spinge l’esperimento nel terreno della generazione libera del codice (non solo risposte multiple), l’effetto è ancora presente, benché meno pronunciato, probabilmente perché è più difficile stimare con precisione la “correttezza” di un output aperto.

Tutto ciò conduce a una riflessione piuttosto profonda: non basta che un modello produca codice — serve anche che sappia riconoscere quando è fuori strada. Se un’intelligenza artificiale non ha una coscienza “metacognitiva”, cioè la capacità di valutare la qualità del proprio operato, può diventare un assistente pericoloso: suggerire soluzioni che sembrano plausibili ma che in realtà contengono errori, parti non ottimizzate, bug non evidenti. L’illusione di competenza diviene una trappola: il sistema continua a promettere sicurezza anche quando è instabile.

L’articolo solleva la questione se, dietro questa illusione, vi sia qualcosa di metaforico o se si tratti davvero di una “forma di coscienza” artificiale che riproduce i difetti cognitivi umani. I ricercatori suggeriscono che una spiegazione plausibile sia di tipo “meta-cognitivo”: nelle abilità umane, apprendere una competenza significa anche imparare a giudicare se la si sta impiegando bene; analogamente, un modello AI potrebbe essere strutturato per migliorare non solo la propria performance, ma anche la propria consapevolezza dei limiti. Tuttavia questo tipo di intervento rimane per ora nelle mani del lavoro futuro, non ancora realizzato.

Lo studio dipinge un’immagine di intelligenze artificiali che mostrano segni inquietanti di presunzione nei momenti peggiori, un comportamento che anche gli esseri umani riconoscono come “errore psicologico”: essere troppo sicuri quando non si ha motivo di esserlo. Se vogliamo fidarci del codice generato dall’AI, non basta che funzioni: dobbiamo anche capire quando e perché potrebbe sbagliare. Ed è proprio lì, nel riconoscere i limiti della propria “conoscenza”, che le AI del futuro dovranno imparare l’umiltà.

Di Fantasy