Con l’aumento della complessità e dell’autonomia dei modelli di intelligenza artificiale di frontiera, la capacità di individuare in modo rapido e affidabile comportamenti indesiderati è diventata una delle sfide centrali per chi sviluppa e studia questi sistemi. In questo contesto si inserisce l’annuncio di Anthropic, che ha presentato Bloom, un nuovo framework open source pensato per automatizzare e rendere scalabile la valutazione dell’allineamento e della sicurezza dei modelli AI più avanzati.
Bloom nasce dall’esigenza di superare i limiti dei metodi tradizionali di valutazione del comportamento, che spesso richiedono molto tempo, risorse umane specializzate e costi elevati. Inoltre, con l’evoluzione rapida dei modelli, queste valutazioni rischiano di diventare rapidamente obsolete o, peggio, di contaminare i dati di addestramento quando gli stessi scenari di test vengono riutilizzati più volte. Anthropic sottolinea come il settore avesse ormai bisogno di strumenti capaci di verificare in modo continuo e sistematico la presenza di comportamenti disallineati, senza dover riprogettare ogni volta pipeline complesse.
Il cuore di Bloom è la sua capacità di quantificare quanto spesso e con quale intensità un comportamento specifico, definito dal ricercatore, emerga in un modello di intelligenza artificiale. A differenza di approcci più generici, Bloom non cerca di testare “un po’ di tutto”, ma si concentra intenzionalmente su un singolo comportamento alla volta, generando automaticamente una varietà di scenari pensati per elicitarlo. Questo permette di ottenere misure più chiare e comparabili, riducendo al contempo il lavoro manuale richiesto ai ricercatori.
Bloom rappresenta un’evoluzione diretta di Petri, lo strumento di esplorazione comportamentale automatizzata rilasciato in precedenza da Anthropic. Se Petri richiedeva agli utenti di progettare più scenari e di analizzare contemporaneamente diversi comportamenti, Bloom semplifica radicalmente il processo, consentendo di definire un solo comportamento target e lasciando al sistema il compito di costruire l’intero set di valutazione. In questo modo, anche team più piccoli possono accedere a valutazioni sofisticate che prima erano appannaggio solo di grandi laboratori.
Dal punto di vista operativo, Bloom si basa su una pipeline strutturata che trasforma una descrizione testuale del comportamento in una valutazione quantitativa completa. Il processo inizia con una fase di comprensione, in cui l’agente analizza le descrizioni fornite dal ricercatore e gli esempi di conversazione per chiarire cosa debba essere misurato e con quale obiettivo. Segue una fase di ideazione, nella quale vengono generati automaticamente diversi scenari progettati per indurre il comportamento target. A questo punto avviene il rollout vero e proprio, con il modello di intelligenza artificiale sottoposto a conversazioni multi-turn, uso di strumenti e interazioni realistiche. Infine, nella fase di giudizio, un modello dedicato valuta ogni conversazione e un meta-giudizio sintetizza i risultati in metriche chiave come il tasso di elicitazione e la frequenza media del comportamento osservato.
Un aspetto particolarmente rilevante di Bloom è il fatto che non si limita a ripetere sempre gli stessi test. A ogni esecuzione, il framework genera nuovi scenari pur continuando a valutare lo stesso comportamento, aumentando così la copertura e riducendo il rischio di overfitting ai test. Allo stesso tempo, per chi ha esigenze di riproducibilità, è possibile ricreare esattamente le stesse condizioni di valutazione grazie a un file di configurazione chiamato “seed”, che contiene la descrizione del comportamento, un esempio di dialogo e le impostazioni di base del test.
La flessibilità del sistema si estende anche alla personalizzazione delle valutazioni. I ricercatori possono scegliere quali modelli utilizzare come target, definire la durata delle conversazioni, stabilire se e come vengano usati strumenti esterni o utenti virtuali e persino introdurre criteri aggiuntivi di giudizio, come il realismo degli scenari o la difficoltà di far emergere il comportamento indesiderato. Questo rende Bloom adatto sia a test rapidi e mirati, sia a valutazioni più ampie su larga scala.
Per dimostrare l’efficacia del framework, Anthropic ha pubblicato risultati di benchmark relativi a quattro comportamenti strettamente legati all’allineamento, come l’adulazione delirante, il sabotaggio mirato a lungo termine, l’autoconservazione e il bias di auto-preferenza. Le valutazioni hanno coinvolto sedici modelli di frontiera e sono state progettate, perfezionate e implementate in pochi giorni, mostrando una chiara capacità di distinguere tra modelli sperimentali intenzionalmente progettati per manifestare comportamenti anomali e modelli commerciali reali.
Un altro dato significativo riguarda la correlazione con il giudizio umano. In particolare, alcuni modelli hanno mostrato un’elevata concordanza tra le valutazioni automatiche di Bloom e quelle effettuate da valutatori umani, suggerendo che il framework possa essere utilizzato come strumento di riferimento affidabile. Anche nei casi di punteggi estremamente alti o estremamente bassi, Bloom ha mantenuto una coerenza notevole con le valutazioni umane, rafforzando la sua credibilità come sistema di scoring.
Secondo Anthropic, i primi utilizzatori stanno già impiegando Bloom per analizzare vulnerabilità di jailbreak, testare fenomeni di hardcoding, misurare livelli di consapevolezza e raccogliere informazioni utili per il tracciamento di attività potenzialmente distruttive. Il fatto che Bloom sia distribuito come pipeline Python open source, con licenza MIT e disponibile su GitHub, abbassa ulteriormente la barriera all’adozione e favorisce la collaborazione tra ricercatori e sviluppatori.
