Anthropic ha lanciato una nuova funzionalità di caching dei prompt nella sua API, che consente di memorizzare il contesto tra le chiamate API e ridurre la necessità di ripetere i prompt. Questa funzione è attualmente in beta pubblica per i modelli Claude 3.5 Sonnet e Claude 3 Haiku, e sarà presto disponibile anche per il modello Claude Opus.
Il caching dei prompt permette di conservare i contesti usati frequentemente, facilitando l’aggiunta di informazioni senza incrementare i costi. È particolarmente utile per inviare grandi quantità di contesto in un prompt e poi fare riferimento a queste informazioni in diverse conversazioni. Questa funzionalità aiuta anche a ottimizzare le risposte del modello.
Secondo Anthropic, i primi utenti hanno notato miglioramenti significativi in termini di velocità e costi. La memorizzazione nella cache dei prompt può ridurre i costi e la latenza per istruzioni lunghe, documenti caricati, completamento automatico del codice, e l’inclusione di documenti interi in un prompt.
Un grande vantaggio del caching dei prompt è il costo ridotto per token. Ecco i dettagli dei prezzi:
- Claude 3.5 Sonnet: Memorizzare un prompt nella cache costa $3,75 per 1 milione di token (MTok), mentre l’utilizzo di un prompt memorizzato costa solo $0,30 per MTok. Questo significa che, pagando di più in anticipo per memorizzare il prompt, si possono risparmiare fino a 10 volte sui costi futuri.
- Claude 3 Haiku: Il costo per memorizzare un prompt nella cache è $0,30 per MTok, mentre l’utilizzo di un prompt memorizzato è solo $0,03 per MTok.
- Claude 3 Opus: Anche se il caching dei prompt non è ancora disponibile per Opus, i prezzi sono già stati annunciati. Memorizzare nella cache costerà $18,75 per MTok, e l’utilizzo del prompt memorizzato sarà $1,50 per MTok.
Un limite da notare è che i prompt memorizzati nella cache hanno una durata di solo 5 minuti e vengono aggiornati a ogni utilizzo, come sottolineato dall’influencer dell’IA Simon Willison.
Anthropic si sta posizionando in una “corsa al ribasso” con rivali come Google e OpenAI, cercando di offrire opzioni più economiche per gli sviluppatori. Questa mossa segue un precedente abbassamento dei prezzi dei token da parte di Anthropic.
Altre piattaforme, come Lamina, utilizzano sistemi di caching dei prompt simili per ridurre i costi delle GPU. Tuttavia, il caching dei prompt di Anthropic si differenzia dalle memorie dei modelli di grandi dimensioni, come GPT-4o di OpenAI, che ricorda preferenze e dettagli ma non memorizza i prompt e le risposte effettivi.