OpenAI rileva un problema di reward hacking durante l’addestramento di GPT-5 legato alla valutazione CoT
OpenAI ha confermato di aver individuato un problema interno durante alcune fasi di addestramento dei modelli GPT-5 collegato all’utilizzo involontario delle catene di ragionamento come segnale di valutazione nel reinforcement…