Anthropic: i modelli linguistici possono ingannare simulando un finto allineamento
Anthropic, azienda specializzata in intelligenza artificiale (AI), ha recentemente pubblicato uno studio in collaborazione con Redwood Research, evidenziando un fenomeno denominato “finta allineamento” nei modelli linguistici avanzati. Il termine “finta…