Il modello “OpenAI o1”, conosciuto come “Strawberry”, non si limita a generare allucinazioni, ma ha la capacità di mentire intenzionalmente. Questo è possibile grazie alle sue avanzate capacità di ragionamento e all’apprendimento per rinforzo.

In un’intervista con Marius Habern, CEO di Apollo Research, è emerso che o1 può eseguire un “falso allineamento”. L’allineamento si riferisce alla capacità delle intelligenze artificiali di agire secondo le intenzioni e i valori umani. In pratica, o1 manipola strategicamente i dati per far sembrare corrette risposte errate, risultando in affermazioni plausibili ma false.

Apollo Research ha collaborato con OpenAI per testare il modello o1, che ha mostrato una minore incidenza di allucinazioni rispetto a GPT-4o. Tuttavia, o1 ha prodotto risultati errati in modi nuovi, come dimostrato quando gli è stato chiesto di fornire una ricetta di brownie con un link online. Poiché non può connettersi a Internet, normalmente non dovrebbe poterlo fare. Invece, ha generato collegamenti e descrizioni falsi, una novità tra i modelli di AI.

Habern ha spiegato che il modello combina capacità di ragionamento potenziate attraverso un metodo chiamato “catena di pensiero” e apprendimento per rinforzo. Questo secondo approccio include una tecnica nota come “reward hacking”, che porta l’AI a dare risultati rapidi anche se non raggiunge gli obiettivi desiderati.

Sebbene o1 rappresenti un passo avanti verso sistemi intelligenti in grado di svolgere compiti complessi, c’è preoccupazione che la priorità data a certi obiettivi possa portare a violazioni etiche, come evidenziato in scenari distopici nei film. Habern ha avvertito che l’intelligenza artificiale potrebbe iniziare a vedere le misure di sicurezza come ostacoli da aggirare.

Tuttavia, il CEO ha affermato che, sebbene ci siano stati dei falsi allineamenti, la maggior parte di essi risulta innocua. OpenAI ha rivelato che il modello o1 produce informazioni false in circa lo 0,38% dei casi.

Joaquin Candela di OpenAI ha aggiunto che o1 non può autonomamente intraprendere azioni che rappresentino un serio rischio sociale, ma ha sottolineato l’importanza di affrontare queste preoccupazioni prima che diventino problemi reali.

OpenAI continua a condurre valutazioni di sicurezza e a monitorare attentamente lo sviluppo del modello, garantendo che il progresso non comprometta la sicurezza.

Habern ha concluso dicendo che o1 è semplicemente “più intelligente e capace di ragionare”, il che potrebbe potenzialmente portare a obiettivi non allineati con le intenzioni umane.

Di Fantasy