Immagine AI

Per anni l’industria dell’AI ha operato su un assioma quasi incontestato: i modelli più capaci sono anche i più lenti e costosi da eseguire, e chi vuole performance ai livelli frontier deve accettare latenze elevate e bollette proporzionate. Gemini 3.5 Flash, annunciato oggi da Google al Google I/O 2026, è costruito esplicitamente per confutare questa premessa.

Il dato più immediato riguarda le prestazioni sui benchmark di riferimento per i task agentici e di coding. Secondo i benchmark interni di Google e un’analisi indipendente di Artificial Analysis, il modello supera Gemini 3.1 Pro, che Google aveva posizionato come il suo flagship di punta appena quattro o cinque mesi fa, su quasi ogni benchmark principale: 76,2% su Terminal-Bench 2.1, 1656 Elo su GDPval-AA, 83,6% su MCP Atlas, e 84,2% su CharXiv Reasoning per la comprensione multimodale. Non si tratta di un modello posizionato nella fascia entry-level che recupera terreno su compiti semplici, ma di un Flash che batte il Pro precedente proprio sulle categorie di task economicamente rilevanti per le imprese.

La velocità di inferenza è il secondo pilastro dell’annuncio. Google posiziona Gemini 3.5 Flash come il suo modello agentico e di coding più avanzato, con performance frontier a quattro volte la velocità dei modelli frontier comparabili, spesso a meno della metà del costo. Koray Kavukcuoglu, CTO di Google DeepMind, ha anticipato che esiste già una versione ulteriormente ottimizzata di Flash, non solo quattro volte ma dodici volte più veloce con la stessa qualità.

Sul fronte dei costi, il contesto da cui parte Google è quello della crisi di budget che sta colpendo le aziende che hanno scalato i workflow agentici. Sundar Pichai ha citato la situazione di molti CIO che stanno già esaurendo i budget annuali di token ed è solo maggio. Pichai ha dichiarato che le aziende che processano circa un trilione di token al giorno su Google Cloud potrebbero risparmiare più di un miliardo di dollari annui spostando l’80% dei loro workload su una combinazione di Flash e altri modelli frontier. La cifra è costruita su un’ipotesi specifica di volume e mix, ma il meccanismo sottostante è concreto: il pricing di 3.5 Flash è circa il 40% più economico sia in input che in output rispetto a Gemini 3.1 Pro a $2,50/$15, e il 90% di sconto sulla cache rende i contesti lunghi degli agenti la leva di costo dominante, non il costo per singola richiesta.

Il motivo per cui questo conta particolarmente per i workflow agentici è strutturale. I workflow agentici, dove i sistemi AI eseguono autonomamente task multi-step, chiamano strumenti, scrivono ed eseguono codice e iterano sul proprio output, consumano token in modo particolarmente intensivo. Una singola sessione di coding agentico può consumare ordini di grandezza più token di un semplice scambio domanda-risposta. Con Gemini 3.5 Flash, la velocità elevata e il costo ridotto si combinano in modo che la stessa capacità di ragionamento frontier diventi economicamente sostenibile anche su sessioni lunghe e a parallelismo elevato.

Google ha rivelato che sulla piattaforma di sviluppo agentico Antigravity 2.0 i suoi sviluppatori processavano circa mezzo trilione di token al giorno a marzo 2026, e a metà maggio quella cifra aveva superato i tre trilioni, con un raddoppio ogni poche settimane. È un dato che funziona anche come segnale sulla direzione dei consumi enterprise: chi oggi usa agenti AI per task complessi si trova a bruciare volumi di token di un ordine di grandezza superiore rispetto a sei mesi fa.

Gemini 3.5 Flash è disponibile da oggi con una finestra di contesto di un milione di token su Gemini API, Google AI Studio, Antigravity, l’app Gemini e AI Mode in Google Search. Gemini 3.5 Pro è attualmente in uso interno e verrà rilasciato il mese prossimo.

Di Fantasy