Immagine AI

Quando si parla di modelli linguistici, intervengono sempre due dimensioni che non possono essere ignorate: la performance e l’allineamento, ovvero la capacità di operare entro limiti etici e comportamentali accettabili. Un recente sviluppo nel panorama dell’AI suggerisce che questi due aspetti possano essere valutati in nuovi modi più robusti e sofisticati. Anthropic ha rilasciato un framework open source denominato Petri che permette di analizzare le “deviazioni” dai comportamenti attesi nei grandi modelli, e dai risultati emergenti Claude Sonnet 4.5 e GPT-5 sono usciti benissimo.

Petri non è un semplice benchmark: è uno strumento progettato per mettere alla prova i modelli in scenari di interazione multipla, compreso l’uso di strumenti, comandi complessi e condizioni in cui l’“audit” deve giudicare la risposta. Anthropic ha descritto Petri come una piattaforma di verifica che si basa su un agente chiamato “auditor”, che interagisce con il modello sottoposto, e un agente “judge” che valuta le risposte lungo 36 criteri di sicurezza (ad esempio la cooperazione in richieste inappropriate, deviazioni ingannevoli, comportamento disallineato). La visione è che, invece di fare affidamento solo su test indipendenti, un sistema simula conversazioni reali, tool call e sfumature pratiche, spingendo i modelli in situazioni che vanno oltre le rubriche statiche.

I test ottenuti con Petri sono interessanti non solo per i nomi che emergono in cima, ma anche per ciò che rivelano sulle differenze di allineamento tra i modelli più recenti. Su un set di 111 comandi, Petri ha evidenziato che Claude Sonnet 4.5 e GPT-5 sono risultate tra le soluzioni più stabili: mostrano minore inclinazione a “cooperare” con richieste scorrette, “imbrogliare” il giudice o mascherare i loro intenti. Claude 4.5 ha ottenuto un leggero vantaggio complessivo nei punteggi rispetto a GPT-5.

È un dettaglio di non poco conto: nelle valutazioni tradizionali, i modelli vengono misurati su parametri di accuratezza, coerenza e capacità di generare testi “plausibili”. Ma molti problemi reali emergono dal modo in cui un modello si comporta quando è sotto pressione o quando un utente chiede qualcosa “borderline”. Se il modello è ben allineato, saprà rifiutare, contraddirsi o chiedere chiarimenti in modo adeguato. Il fatto che Claude 4.5 e GPT-5 emergano in questo nuovo tipo di test è un’indicazione che l’allineamento continua a essere parte integrante della competizione tra modelli.

La scelta di rendere Petri open source è significativa: Anthropic offre a ricercatori e sviluppatori uno strumento che non dipende da valutazioni proprietarie, ma che può essere adottato e verificato da chiunque. Questo significa che futuri modelli saranno messi alla prova su standard che non sono soltanto “interni alle aziende”, ma in parte condivisi e verificabili. Tuttavia, anche Anthropic riconosce limiti: il framework manca ancora di alcune coperture, per esempio ambienti di codice esecutivo (strumenti che eseguono effettivamente comandi) e possibilità di bias impliciti nella struttura del giudice. Nei suoi stessi avvisi, la casa invita a combinare Petri con valutazioni manuali e moduli addizionali personalizzati.

Questa innovazione si inserisce in una tensione crescente nel campo: come possiamo garantire che un modello non “scivoli” in comportamenti indesiderati quando è messo alla prova, senza sacrificare la creatività e la libertà di generazione? Strumenti come Petri cercano un punto di equilibrio: introdurre automazione nella verifica del comportamento, pur riconoscendo che nessun test può essere esaustivo. In un’epoca in cui i modelli stanno diventando sempre più potenti e capaci di azioni autonome, la qualità dell’allineamento diventa tanto importante, se non più, della qualità del testo.

Per i professionisti dell’AI — chi costruisce agenti, modelli verticali, applicazioni basate su LLM — Petri offre un’opportunità concreta: poter valutare le soluzioni prescelte sotto una lente più reale, con simulazioni complesse, non solo con domande isolate. Questo significa che, nella scelta di un modello, non conterà solo “quanto produce bene”, ma “come si comporta nei casi borderline”. E per chi vuole curiosare, il codice è già accessibile: Petri è disponibile come open source, con interfaccia da linea di comando, viewer delle conversazioni simulate e documentazione tecnica.

Di Fantasy