Vaudit ha lanciato TokenAudit, una piattaforma di audit dedicata ai costi generati dall’uso di modelli AI e servizi cloud collegati. Il sistema è progettato per controllare se le fatture ricevute da provider come OpenAI, Anthropic, AWS, Google Cloud e Microsoft Azure corrispondano realmente ai consumi effettuati, ai modelli utilizzati, alle condizioni economiche negoziate e alle regole di billing applicate nel periodo di riferimento.
Il problema affrontato da TokenAudit nasce dalla crescente frammentazione dei carichi AI aziendali. Una stessa organizzazione può utilizzare API dirette, servizi gestiti nei cloud hyperscaler, gateway multi-modello, workflow agentici, sistemi di fallback e strumenti di sviluppo che invocano modelli diversi in base a disponibilità, costo, latenza o policy interne. In questo scenario la fattura finale può aggregare milioni di token, richieste, batch, cache hit, retry e chiamate fallite, rendendo difficile verificare manualmente se ogni voce corrisponda a un utilizzo corretto.
TokenAudit raccoglie dati di utilizzo dall’ambiente AI del cliente e li riconcilia con gli importi fatturati. L’analisi considera il numero di token in input e output, il modello effettivamente impiegato, il prezzo applicato, eventuali sconti contrattuali, la tipologia di esecuzione e la presenza di richieste duplicate o non completate. L’obiettivo non è soltanto rilevare un totale anomalo nella fattura, ma ricostruire la catena che collega una singola chiamata AI al costo attribuito dal provider.
Tra le anomalie individuabili rientrano le differenze tra il modello richiesto e quello realmente addebitato, l’applicazione di tariffe premium a workload che avrebbero dovuto usare modelli meno costosi, gli errori nel calcolo di sconti o crediti e la fatturazione di richieste fallite. Un’altra area critica riguarda le retry storm, cioè sequenze di tentativi automatici che possono moltiplicare lo stesso carico quando un endpoint rallenta, restituisce errori temporanei o viene richiamato da più livelli del workflow. In architetture agentiche e pipeline complesse, un retry non controllato può generare più addebiti per una singola operazione utente.
La piattaforma analizza anche i flussi in cui il costo viene prodotto senza un risultato operativo utile. Possono rientrare in questa categoria workflow lasciati attivi ma non più utilizzati, fallback chain che inviano la stessa richiesta a più modelli, contesti di sistema ridondanti che aumentano stabilmente il numero di token in input e processi batch più costosi rispetto a modalità di esecuzione alternative. L’audit non si limita quindi alla verifica post-fattura, ma può evidenziare sprechi strutturali prima che diventino una voce ricorrente di budget.
TokenAudit prevede due livelli di intervento. Il primo è il recupero post-billing, attraverso la documentazione delle discrepanze tra log di utilizzo, condizioni contrattuali e fatture, con l’obiettivo di ottenere rimborsi, note di credito o correzioni di account. Il secondo è la correzione preventiva dei costi, basata sull’identificazione di picchi anomali, allocazioni non coerenti dei modelli, catene di retry, token di contesto superflui e workflow inefficienti prima della chiusura del ciclo di fatturazione.
Secondo i dati diffusi da Vaudit, dal marzo 2026 la società ha esaminato circa 34 milioni di dollari di spesa AI presso 60 aziende, rilevando quasi 1,7 milioni di dollari di sovraccosti attribuiti a errori di fatturazione. Circa l’80% delle somme contestate sarebbe stato poi riconosciuto sotto forma di credito dai provider o dalle piattaforme cloud coinvolte. La società stima inoltre che una quota compresa tra il 3% e il 7% della spesa AI aziendale possa contenere valore recuperabile attraverso controlli su addebiti duplicati, prezzi non corretti, richieste fallite, retry loop e rettifiche non richieste.
Il lancio di TokenAudit introduce quindi un livello di verifica indipendente in un’area dove le aziende ricevono spesso dati di utilizzo e dati di fatturazione dallo stesso soggetto che eroga il servizio. Per finance, procurement, engineering e FinOps, il punto non è soltanto ridurre il costo dei token, ma distinguere con precisione tra consumo necessario, inefficienza tecnica e addebito non conforme alle condizioni concordate. In un’infrastruttura AI multi-provider, la riconciliazione del billing diventa così una componente operativa della governance del costo, al pari del monitoraggio delle prestazioni, della sicurezza e dell’affidabilità dei workflow.
