Immagine AI

L’Intelligenza Artificiale è ormai entrata in una fase di ubiquità, agendo come un consigliere sempre presente e influente. Tuttavia, la sua crescente intelligenza si accompagna a un rischio altrettanto crescente: quello di generare risposte che, pur sembrando autorevoli, contengono errori. La capacità dell’utente medio di verificare la veridicità di tali contenuti è spesso limitata, rendendo l’affidabilità e l’accuratezza dei Modelli Linguistici di Grande Scala (LLM) una questione critica, specialmente in ambiti dove l’errore può avere conseguenze potenzialmente fatali, come la diagnostica medica o le decisioni finanziarie.

In questo contesto di urgenza, i ricercatori della Michigan State University (MSU) hanno sviluppato un metodo altamente efficiente, denominato CCPS (Calibrating LLM Confidence by Probing Perturbed Representation Stability), per misurare internamente l’accuratezza delle risposte generate dall’IA. Questo strumento, rilasciato come dashboard di affidabilità, promette di far luce su ciò che l’IA sa veramente e ciò che invece sta semplicemente supponendo.

Tradizionalmente, per testare l’affidabilità di una risposta dell’IA, si ricorreva a una verifica esterna laboriosa: si poneva la stessa domanda più volte per valutare la coerenza delle risposte. Questo approccio, però, era lento, costoso e non sempre risolutivo, in quanto una risposta coerente non è necessariamente una risposta corretta.

Il metodo CCPS adotta invece un approccio radicalmente nuovo, andando a indagare la stabilità interna del modello. Funziona essenzialmente applicando una “spinta” molto sottile allo stato interno (hidden state) dell’LLM mentre è in corso la generazione della risposta. Questa perturbazione delicata agisce come un test di stress sulla base della risposta potenziale, rivelando quanto essa sia intrinsecamente robusta e stabile, o al contrario, fragile e inaffidabile. L’intuizione alla base è semplice, ma potente: se la risposta di un modello cambia a causa di un piccolo cambiamento interno, significa che non era affidabile fin dall’inizio.

Il CCPS opera attraverso tre fasi distinte per arrivare a un punteggio di affidabilità finale:

  • Perturbazione Sottile: Quando l’utente inserisce un prompt, l’LLM inizia a generare la risposta. In questa fase, il CCPS applica delle lievi perturbazioni allo stato nascosto di ciascun token generato.
  • Estrazione delle Feature: Successivamente, il sistema estrae le informazioni chiave per la valutazione dell’affidabilità, in particolare analizzando i cambiamenti nello stato interno prima e dopo la perturbazione. Questi dati vengono quindi aggregati in un “vettore di feature”.
  • Classificazione del Punteggio: Infine, questo vettore di feature viene inserito in un classificatore specializzato. Questo classificatore produce un punteggio di affidabilità finale che indica, in termini percentuali, la probabilità che la risposta generata dall’IA sia effettivamente corretta.

L’efficacia del CCPS è stata convalidata attraverso test su benchmark standard come MMLU e MMLU-Pro, mirati a LLM su scala 8-32B (come Llama, Qwen e Mistral). I risultati ottenuti hanno superato in modo significativo le prestazioni delle tecniche di stima dell’affidabilità precedentemente considerate più all’avanguardia.

In termini di impatto, il CCPS ha ridotto l’Errore di Calibrazione Atteso (ECE) di circa il 55% e ha migliorato il Punteggio Brier del 21%. L’accuratezza complessiva è aumentata di 5 punti percentuali, con miglioramenti significativi anche nelle metriche AUPRC e AUROC. Questi numeri si traducono in un fatto cruciale: l’Intelligenza Artificiale è ora in grado di calibrare con molta più precisione la propria confidenza, distinguendo in modo più netto tra ciò che “sa” e ciò che “non sa”.

Di Fantasy