Google ha ridotto la capacità di calcolo destinata a Meta per l’utilizzo dei modelli Gemini, dopo avere comunicato di non poter fornire l’intero volume richiesto. La limitazione riguarda l’accesso alle risorse necessarie per eseguire inferenza e servizi basati sui modelli generativi, in una fase nella quale la domanda di potenza computazionale cresce più rapidamente della disponibilità di data center, chip e infrastrutture energetiche.
Meta utilizzava Gemini in più aree interne, incluse attività di rilevamento delle frodi online, moderazione automatica dei contenuti, chatbot per customer care e advertising, strumenti per la produttività del personale e supporto allo sviluppo software. La riduzione della capacità disponibile ha rallentato alcuni progetti, mostrando quanto il funzionamento di molte applicazioni AI dipenda non soltanto dalla qualità del modello, ma anche dalla quantità di token e inferenza che un’azienda riesce a ottenere ogni giorno.
Nel caso dei sistemi di sicurezza, la disponibilità di inferenza è particolarmente rilevante. Il rilevamento di scam, contenuti dannosi e comportamenti anomali richiede l’analisi continua di grandi volumi di messaggi, immagini, annunci e interazioni. Quando la capacità viene limitata, l’azienda deve scegliere quali controlli mantenere a pieno regime, quali processi eseguire in modalità meno costosa e quali attività rinviare o affidare a modelli alternativi.
La situazione ha spinto Meta a intervenire anche sulla gestione interna dei token. L’uso dei modelli viene infatti misurato come consumo di risorse computazionali: richieste molto lunghe, contesti estesi, catene agentiche, tool call ripetute e output articolati aumentano il carico di inferenza. In un’organizzazione che utilizza modelli AI su larga scala, una riduzione apparentemente limitata della capacità può avere effetti diretti sulle priorità dei team e sull’accesso agli strumenti.
Il problema evidenzia la differenza tra possedere un modello e poterlo utilizzare in modo affidabile in produzione. Anche quando un’azienda dispone di API, accordi commerciali o accesso a modelli avanzati, deve fare i conti con quote, disponibilità regionale, picchi di domanda, costo per token e capacità effettiva dei fornitori. Per le applicazioni che operano in tempo reale, come assistenza clienti, safety e automazione interna, la continuità della capacità di calcolo diventa un requisito operativo, non un semplice dettaglio infrastrutturale.
Google sta affrontando una pressione analoga sul proprio lato. La crescita dell’AI coding, dei sistemi agentici e dei servizi cloud basati su Gemini richiede risorse molto superiori rispetto ai tradizionali chatbot testuali. Ogni agente che analizza file, usa strumenti, genera codice, consulta database o compie più passaggi autonomi può produrre un consumo di inferenza significativamente più alto rispetto a una singola domanda e risposta.
La limitazione imposta a Meta mostra inoltre la complessità delle relazioni tra grandi aziende AI. Meta è concorrente di Google nello sviluppo di modelli, infrastrutture e prodotti digitali, ma allo stesso tempo utilizza Gemini per attività che ritiene più efficaci o mature rispetto alle alternative interne. Questa dipendenza rende la disponibilità di capacità esterna un fattore strategico, soprattutto quando il modello viene integrato in processi sensibili come sicurezza, moderazione e supporto agli sviluppatori.
Meta sta quindi accelerando l’uso di modelli proprietari per ridurre l’esposizione alle limitazioni dei fornitori. La direzione è quella di impiegare modelli interni per una parte crescente dei workflow, mantenendo i modelli esterni per compiti nei quali offrono vantaggi specifici. In pratica, l’architettura AI aziendale tende a diventare multi-modello: un sistema può distribuire le richieste tra modelli diversi in base a costo, qualità, latenza, contesto disponibile e criticità dell’attività.
Il caso dimostra che il collo di bottiglia dell’intelligenza artificiale non è più soltanto l’addestramento dei modelli. La vera pressione si sta spostando sulla capacità di eseguirli ogni giorno, su scala elevata e con tempi di risposta compatibili con i prodotti reali. Per le aziende che costruiscono servizi AI, la disponibilità di compute sta diventando una risorsa da pianificare, allocare e ottimizzare con la stessa attenzione riservata ai dati, al software e alla sicurezza.
