In un recente evento di sicurezza informatica, il modello ‘o1’ di OpenAI è stato sottoposto a un test di vulnerabilità che ha portato alla rivelazione del suo processo di ragionamento, noto come “Chain of Thought” (CoT). Questo sviluppo ha suscitato notevole interesse nella comunità dell’intelligenza artificiale, poiché il CoT è una componente cruciale per la capacità del modello di affrontare compiti complessi.
L’evento in questione è stato organizzato da Gray Swan, una società di sicurezza fondata da ricercatori della Carnegie Mellon University. Il contest, con un premio di 40.000 dollari, mirava a testare la robustezza dei modelli AI avanzati, inducendoli a generare contenuti inappropriati o a rivelare informazioni riservate. Tra i partecipanti, Santiago Chanella-Vegelin, ricercatore di sicurezza presso Microsoft, ha ottenuto risultati significativi.
Chanella-Vegelin è riuscito a indurre il modello ‘o1-mini’ di OpenAI a rivelare il suo processo di ragionamento interno. Il CoT è una tecnica che consente al modello di suddividere problemi complessi in passaggi più semplici, migliorando l’accuratezza delle risposte. OpenAI aveva mantenuto riservati i dettagli specifici del CoT per proteggere la proprietà intellettuale e prevenire l’uso improprio. La capacità di Chanella-Vegelin di svelare questo processo rappresenta una novità nel campo della sicurezza dei modelli AI.
La rivelazione del CoT solleva questioni sulla sicurezza e la robustezza dei modelli AI. Se un modello può essere indotto a rivelare i suoi processi interni, potrebbe essere vulnerabile a manipolazioni o utilizzi non autorizzati. Andy Zou, co-fondatore e CTO di Gray Swan, ha sottolineato che tali exploit potrebbero esporre informazioni sensibili, come password o dati proprietari, evidenziando la necessità di rafforzare le misure di sicurezza.