Google introduce il “caching implicito” nell’API Gemini per ridurre i costi degli sviluppatori

DiFantasy

Mag 9, 2025

Google ha annunciato il 9 maggio 2025 l’introduzione di una nuova funzionalità nell’API Gemini: il “caching implicito”. Questa innovazione mira a ridurre significativamente i costi per gli sviluppatori che utilizzano i modelli di intelligenza artificiale Gemini 2.5 Pro e 2.5 Flash. Secondo Google, il caching implicito può portare a un risparmio fino al 75% sui costi associati all’elaborazione di input ripetitivi.

In precedenza, Google offriva solo il “caching esplicito”, che richiedeva agli sviluppatori di identificare manualmente i prompt da memorizzare nella cache. Tuttavia, questo approccio ha suscitato critiche da parte degli sviluppatori, che hanno lamentato costi elevati e una gestione complessa. Il nuovo sistema di caching implicito risponde a queste preoccupazioni, automatizzando il processo e consentendo agli sviluppatori di beneficiare dei risparmi senza interventi manuali.

Il caching implicito funziona rilevando automaticamente quando una richiesta all’API Gemini condivide un prefisso comune con una richiesta precedente. In tal caso, il sistema applica automaticamente il risparmio sui costi, senza necessità di configurazioni aggiuntive da parte degli sviluppatori. Per massimizzare le probabilità di attivare il caching, Google consiglia di posizionare le informazioni ripetitive all’inizio del prompt e quelle variabili alla fine.

Per qualificarsi per il caching implicito, le richieste devono soddisfare una soglia minima di token: 1.024 per il modello 2.5 Flash e 2.048 per il modello 2.5 Pro. Queste soglie corrispondono a circa 750 e 1.500 parole, rispettivamente.

Con l’introduzione del caching implicito, Google mira a rendere l’utilizzo dei suoi modelli di intelligenza artificiale più accessibile ed economico per gli sviluppatori, semplificando al contempo la gestione delle risorse. Tuttavia, la società non ha ancora fornito una verifica indipendente dei risparmi promessi, e l’efficacia del sistema dipenderà dall’effettivo utilizzo da parte degli sviluppatori.

Google introduce il “caching implicito” nell’API Gemini per ridurre i costi degli sviluppatori

DiFantasy

Di Fantasy

Articoli correlati

Rendering neurale: arriva NVIDIA DiffusionRenderer per video realistici

Salesforce presenta GTA1, agente GUI che supera OpenAI CUA nei benchmark

Meta acquisisce PlayAI per potenziare l’AI vocale nel suo Superintelligence Lab

You missed

Rendering neurale: arriva NVIDIA DiffusionRenderer per video realistici

Salesforce presenta GTA1, agente GUI che supera OpenAI CUA nei benchmark

Meta acquisisce PlayAI per potenziare l’AI vocale nel suo Superintelligence Lab

Anthropic propone un quadro di trasparenza per l’AI avanzata tra sicurezza, responsabilità e flessibilità