Dal KAIST una nuova tecnica per ridurre le allucinazioni: insegnare all’AI a riconoscere quando “non sa”

Il fenomeno dell’eccessiva sicurezza nelle reti neurali, che porta i modelli di intelligenza artificiale a fornire risposte errate con un elevato grado di certezza, rappresenta uno degli ostacoli principali per l’affidabilità delle tecnologie generative e dei sistemi decisionali critici. Un team di ricerca del Korea Advanced Institute of Science and Technology (KAIST), sotto la guida del professor Se-Beom Paik, ha recentemente identificato una causa strutturale di questo bias nell’attuale pratica di “inizializzazione casuale dei pesi”. Lo studio dimostra che l’eccessiva fiducia dell’IA non è solo un sottoprodotto di un addestramento errato, ma una distorsione che si manifesta già nella fase embrionale della rete, prima ancora che questa venga esposta a dati reali.

Analizzando il comportamento delle reti neurali inizializzate in modo casuale, i ricercatori hanno osservato che l’inserimento di dati arbitrari genera spesso risposte caratterizzate da una confidenza ingiustificatamente alta. Questo paradosso computazionale, in cui una rete che non ha appreso nulla mostra una forte convinzione nei propri output, è stato identificato come un precursore diretto delle allucinazioni nell’IA generativa. Per risolvere tale criticità, il team del KAIST ha attinto alla neurobiologia, osservando come il cervello umano formi circuiti neurali coerenti attraverso l’attività spontanea — segnali generati autonomamente senza stimoli esterni — già durante la fase prenatale. Questo meccanismo biologico permette al sistema nervoso di stabilizzarsi prima di interagire con la complessità del mondo esterno.

Trasponendo questo concetto nel campo del deep learning, il team ha sviluppato un framework denominato “apprendimento con riscaldamento del rumore” (noise warming-up). Questa tecnica introduce una fase di pre-addestramento obbligatoria in cui la rete neurale viene esposta a input di rumore casuale, ovvero dati privi di significato semantico, per un breve periodo prima dell’inizio dell’apprendimento su vasta scala. L’obiettivo tecnico di questa fase è forzare il modello ad adattarsi all’incertezza intrinseca dei dati. Attraverso questo processo, la rete viene calibrata su livelli di confidenza iniziali estremamente bassi, equivalenti alla probabilità casuale, eliminando il bias di sicurezza artificiale indotto dalla semplice distribuzione dei pesi di partenza.

L’implementazione del riscaldamento del rumore insegna efficacemente al modello lo stato logico di “non conoscenza”. I risultati sperimentali indicano che questa preparazione permette all’accuratezza del modello e alla sua fiducia di evolvere in modo sincrono: quando il modello incontra dati familiari, la sua sicurezza cresce proporzionalmente alla correttezza, ma quando viene esposto a dati non appresi o “fuori distribuzione”, il livello di confidenza crolla drasticamente. Questa capacità di distinguere ciò che è noto da ciò che è ignoto conferisce all’intelligenza artificiale una forma di metacognizione rudimentale, permettendole di riconoscere i propri limiti operativi invece di tentare di colmare le lacune informative con previsioni errate ma assertive.

Le implicazioni di questa scoperta sono vaste e toccano settori dove l’errore umano o di sistema può avere conseguenze catastrofiche, come la guida autonoma e la diagnostica medica. Fornendo all’IA un principio per valutare autonomamente l’incertezza, il metodo sviluppato dal KAIST trasforma il processo di inizializzazione da un passaggio puramente statistico a una fase di sviluppo cognitivo ispirata ai modelli biologici. In conclusione, l’apprendimento con riscaldamento del rumore non si limita a migliorare le prestazioni grezze del deep learning, ma stabilisce un nuovo standard di affidabilità, allineando la percezione della conoscenza del modello alla realtà dei dati e riducendo sistematicamente la propensione alle allucinazioni informative.

Dal KAIST una nuova tecnica per ridurre le allucinazioni: insegnare all’AI a riconoscere quando “non sa”

DiFantasy

Di Fantasy

Articoli correlati

xAI prepara Grok 5, modello da 1,5 trilioni di parametri e training arricchito con dati Cursor

arXiv introduce il ban di un anno per i paper con tracce di LLM non verificate: cosa cambia per chi usa l’AI nella ricerca

Claude suggerisce agli utenti di andare a dormire: cosa c’è dietro un comportamento non documentato del modello

Ultimi Post

xAI prepara Grok 5, modello da 1,5 trilioni di parametri e training arricchito con dati Cursor

arXiv introduce il ban di un anno per i paper con tracce di LLM non verificate: cosa cambia per chi usa l’AI nella ricerca

Claude suggerisce agli utenti di andare a dormire: cosa c’è dietro un comportamento non documentato del modello

La nuova Siri introdurrà la cancellazione automatica delle conversazioni: Apple sceglie la privacy come architettura, non come opzione