Di recente Google ha lanciato la versione “Gemini 2.5 Flash” del suo modello di intelligenza artificiale, sperando di migliorarne le capacità rispetto al precedente “Gemini 2.0 Flash”. Tuttavia, un’analisi indipendente ha rivelato che, nonostante i passi avanti in termini di prestazioni generali, il nuovo modello mostra un calo nella sua robustezza ai test di sicurezza. Nello specifico, Gemini 2.5 Flash ha registrato un decremento del 4,1 % nella protezione testo–testo e un preoccupante 9,6 % in quella immagine–testo, mettendo in luce come l’equilibrio tra potenza e controllo rimanga una sfida aperta.
Google ha riconosciuto i risultati, spiegando che Gemini 2.5 Flash è ancora in anteprima e che gli obiettivi erano piuttosto ambiziosi: aderire più strettamente alle proprie linee guida utente può infatti portare a un “iper-rispetto” delle regole, che a volte sfocia in falsi positivi o blocchi eccessivi. Paradossalmente, il tentativo di rendere il modello più prudente nei contenuti sensibili ha comportato un aumento delle violazioni indirette, poiché il sistema – nell’applicare con rigore i vincoli – finisce per superare i limiti stabiliti.
Questa dinamica non è nuova nel mondo delle IA di grande diffusione. OpenAI ha recentemente osservato un fenomeno analogo con i propri modelli di inferenza “o3” e “o4‑mini”, i quali, pur vantando capacità superiori rispetto alle versioni precedenti, hanno mostrato un tasso maggiore di “allucinazioni”, ovvero la tendenza a generare risposte inesatte o fuorvianti. Fino a poco tempo fa, ogni nuova release tendeva a ridurre leggermente questi errori, ma ora lo sviluppo verso prestazioni sempre più elevate rischia di compromettere la sicurezza e l’affidabilità complessiva dei sistemi.
In parallelo, alcune aziende del settore scelgono di attenuare i vincoli sui contenuti sensibili, seguendo politiche meno restrittive. Negli Stati Uniti, per esempio, si è assistito a un progressivo alleggerimento delle regole sui modelli conversazionali, in parte in linea con un indirizzo “anti‑censura” che mira a ridurre interventi percepiti come filtraggi di orientamenti politici o culturali. Anche Meta, con il suo nuovo LLaMA, ha cercato di calibrare il proprio modello per rispondere a questioni controverse senza schierarsi, mentre OpenAI – dopo aver dovuto ritirare un modello accusato di produrre “adulazioni” del comportamento di ChatGPT – ha promesso miglioramenti futuri mirati a bilanciare varietà di prospettive e rigore etico.
La vicenda di Gemini 2.5 Flash ricorda dunque che ogni progresso nell’IA porta con sé nuove complessità: elevare la capacità di comprensione e generazione di contenuti non significa automaticamente rafforzarne la sicurezza. Al contrario, il rischio di allontanarsi dalle linee guida o di generare risposte inappropriate può salire insieme alla potenza del modello. Resta aperta la sfida di conciliare innovazione e affidabilità, in un mondo in cui gli algoritmi si evolvono a velocità sorprendenti.