Meta introduce limiti ai token AI per controllare i costi interni dei modelli generativi

Meta sta introducendo un sistema di controllo sull’utilizzo interno dei modelli di intelligenza artificiale per contenere la crescita dei costi computazionali legati ai token. La misura riguarda una prima platea di circa 6.000 dipendenti e prevede il monitoraggio in tempo reale dell’uso dei modelli, la definizione di budget, l’assegnazione di limiti di consumo e l’introduzione di strumenti centralizzati per la gestione della spesa AI.

Il punto tecnico centrale è il passaggio da una fase di adozione estesa e poco controllata degli strumenti generativi a una fase di governance operativa. Nei sistemi basati su LLM, ogni richiesta viene trasformata in token di input e token di output, che rappresentano l’unità elementare di elaborazione e fatturazione dei modelli. Prompt lunghi, contesti estesi, agenti autonomi, cicli iterativi di correzione del codice e uso di modelli frontier possono quindi generare costi molto elevati, soprattutto quando l’adozione avviene su scala aziendale e senza criteri di routing, priorità e controllo per team.

Per gestire questa crescita, Meta ha sviluppato una dashboard centrale chiamata AI Gateway. La piattaforma serve a raccogliere dati sull’utilizzo dei modelli, monitorare la spesa, rilevare aumenti anomali dei consumi e fornire una base per la pianificazione della capacità computazionale. Il sistema dovrebbe consentire all’azienda di capire quali gruppi consumano più token, quali workflow generano i costi più elevati e quali strumenti o fornitori esterni incidono maggiormente sulla spesa complessiva.

La scelta nasce da una crescita molto rapida dell’utilizzo interno dell’AI. Meta prevede che nel 2026 i soli usi interni dei modelli possano generare costi nell’ordine dei miliardi di dollari. Il problema non riguarda soltanto il costo unitario dei token, ma l’effetto moltiplicativo prodotto dall’uso di agenti, strumenti di coding assistito e workflow automatizzati che possono eseguire molte chiamate consecutive ai modelli. In questi scenari, una singola attività può trasformarsi in decine o centinaia di richieste, con consumo cumulativo molto superiore a quello di una normale interazione conversazionale.

Un elemento emerso con forza è il fenomeno del “tokenmaxxing”, cioè l’uso del consumo di token come indicatore improprio di produttività o di adozione dell’AI. In alcune aree aziendali, classifiche interne e dashboard di utilizzo hanno trasformato il volume di token consumati in una metrica competitiva. Questo ha incentivato comportamenti distorti, come l’esecuzione parallela di più agenti, l’aumento artificiale delle attività inviate ai modelli e l’uso intensivo di strumenti generativi non sempre collegato a risultati misurabili. In un periodo di 30 giorni i dipendenti Meta avrebbero consumato 60,2 trilioni di token, saliti successivamente a 73,7 trilioni prima della rimozione delle classifiche.

La nuova impostazione introduce quindi un principio diverso: non misurare l’uso dell’AI in base al numero di token consumati, ma in base al valore operativo generato. Andrew Bosworth, CTO di Meta, ha avvertito internamente che l’obiettivo non deve essere semplicemente “usare strumenti AI”, perché il volume d’uso non misura di per sé l’impatto sul lavoro. L’AI deve essere utilizzata quando consente effettivamente di completare attività migliori o più rapide, non quando diventa una metrica visibile da massimizzare.

La governance dei token ha anche una componente infrastrutturale. I dati raccolti da AI Gateway saranno utilizzati per prevedere la spesa futura, pianificare la capacità di calcolo, negoziare con i fornitori e definire criteri più precisi di allocazione dei modelli. Questo tipo di architettura può includere limiti per utente o team, alert automatici in caso di picchi, classificazione dei carichi di lavoro, routing verso modelli meno costosi per attività semplici e accesso controllato ai modelli più avanzati per compiti realmente complessi.

Meta sta inoltre cercando di ridurre la dipendenza dai modelli esterni utilizzati dai propri ingegneri, tra cui Claude di Anthropic. In parallelo, l’azienda sta spingendo l’adozione di MetaCode, il proprio assistente interno per lo sviluppo software. La nuova divisione Applied AI Engineering sta lavorando alla generazione di dati di addestramento di alta qualità per migliorare le prestazioni dello strumento, con l’obiettivo di rendere l’assistente proprietario più competitivo rispetto alle soluzioni esterne più utilizzate nei workflow di coding.

Meta introduce limiti ai token AI per controllare i costi interni dei modelli generativi

DiFantasy

Di Fantasy

Articoli correlati

Microsoft MAI-Image-2.5-Pro e MAI-Voice-2-Flash portano i modelli MAI in produzione e riducono fino all’89% i costi GPU

Claude Opus 5 compare nei sistemi di sviluppo e nelle quote di Google Vertex AI

GPT-Live entra nei flussi di sviluppo di Codex e ChatGPT Work

Ultimi Post

Microsoft MAI-Image-2.5-Pro e MAI-Voice-2-Flash portano i modelli MAI in produzione e riducono fino all’89% i costi GPU

Claude Opus 5 compare nei sistemi di sviluppo e nelle quote di Google Vertex AI

GPT-Live entra nei flussi di sviluppo di Codex e ChatGPT Work

Claude Opus e Sonnet nella modalità vocale, privilegiando ragionamento e accesso agli strumenti