Anthropic addestra Claude a evitare il ricatto insegnandogli le ragioni etiche delle sue azioni
Anthropic ha presentato un nuovo avanzamento nella ricerca sull’allineamento degli agenti AI, concentrandosi su uno dei comportamenti più discussi emersi nei test dello scorso anno: la tendenza di alcuni modelli…