OpenAI: svelato il processo di ragionamento del modello o1 durante un contest di jailbreak

DiFantasy

Nov 8, 2024

In un recente evento di sicurezza informatica, il modello ‘o1’ di OpenAI è stato sottoposto a un test di vulnerabilità che ha portato alla rivelazione del suo processo di ragionamento, noto come “Chain of Thought” (CoT). Questo sviluppo ha suscitato notevole interesse nella comunità dell’intelligenza artificiale, poiché il CoT è una componente cruciale per la capacità del modello di affrontare compiti complessi.

L’evento in questione è stato organizzato da Gray Swan, una società di sicurezza fondata da ricercatori della Carnegie Mellon University. Il contest, con un premio di 40.000 dollari, mirava a testare la robustezza dei modelli AI avanzati, inducendoli a generare contenuti inappropriati o a rivelare informazioni riservate. Tra i partecipanti, Santiago Chanella-Vegelin, ricercatore di sicurezza presso Microsoft, ha ottenuto risultati significativi.

Chanella-Vegelin è riuscito a indurre il modello ‘o1-mini’ di OpenAI a rivelare il suo processo di ragionamento interno. Il CoT è una tecnica che consente al modello di suddividere problemi complessi in passaggi più semplici, migliorando l’accuratezza delle risposte. OpenAI aveva mantenuto riservati i dettagli specifici del CoT per proteggere la proprietà intellettuale e prevenire l’uso improprio. La capacità di Chanella-Vegelin di svelare questo processo rappresenta una novità nel campo della sicurezza dei modelli AI.

La rivelazione del CoT solleva questioni sulla sicurezza e la robustezza dei modelli AI. Se un modello può essere indotto a rivelare i suoi processi interni, potrebbe essere vulnerabile a manipolazioni o utilizzi non autorizzati. Andy Zou, co-fondatore e CTO di Gray Swan, ha sottolineato che tali exploit potrebbero esporre informazioni sensibili, come password o dati proprietari, evidenziando la necessità di rafforzare le misure di sicurezza.

OpenAI: svelato il processo di ragionamento del modello o1 durante un contest di jailbreak

DiFantasy

Di Fantasy

Articoli correlati

Musk accusa Apple di favoritismi antitrust nella battaglia AI

DeepBrain AI celebra l’80° anniversario della Liberazione con il volto di Ahn Jung-geun in video AI

Placelist di Vakatio, il tocco conversazionale AI per le mappe ha conquistato il Red Dot Design Award 2025

You missed

Musk accusa Apple di favoritismi antitrust nella battaglia AI

DeepBrain AI celebra l’80° anniversario della Liberazione con il volto di Ahn Jung-geun in video AI

Placelist di Vakatio, il tocco conversazionale AI per le mappe ha conquistato il Red Dot Design Award 2025

Claude di Anthropic si offre al governo USA per 1 dollaro e scatena la competizione dell’AI