Il nuovo ed economico sistema di caching dei Prompt di Anthropic Claude

Anthropic ha lanciato una nuova funzionalità di caching dei prompt nella sua API, che consente di memorizzare il contesto tra le chiamate API e ridurre la necessità di ripetere i prompt. Questa funzione è attualmente in beta pubblica per i modelli Claude 3.5 Sonnet e Claude 3 Haiku, e sarà presto disponibile anche per il modello Claude Opus.

Il caching dei prompt permette di conservare i contesti usati frequentemente, facilitando l’aggiunta di informazioni senza incrementare i costi. È particolarmente utile per inviare grandi quantità di contesto in un prompt e poi fare riferimento a queste informazioni in diverse conversazioni. Questa funzionalità aiuta anche a ottimizzare le risposte del modello.

Secondo Anthropic, i primi utenti hanno notato miglioramenti significativi in termini di velocità e costi. La memorizzazione nella cache dei prompt può ridurre i costi e la latenza per istruzioni lunghe, documenti caricati, completamento automatico del codice, e l’inclusione di documenti interi in un prompt.

Un grande vantaggio del caching dei prompt è il costo ridotto per token. Ecco i dettagli dei prezzi:

Claude 3.5 Sonnet: Memorizzare un prompt nella cache costa $3,75 per 1 milione di token (MTok), mentre l’utilizzo di un prompt memorizzato costa solo $0,30 per MTok. Questo significa che, pagando di più in anticipo per memorizzare il prompt, si possono risparmiare fino a 10 volte sui costi futuri.
Claude 3 Haiku: Il costo per memorizzare un prompt nella cache è $0,30 per MTok, mentre l’utilizzo di un prompt memorizzato è solo $0,03 per MTok.
Claude 3 Opus: Anche se il caching dei prompt non è ancora disponibile per Opus, i prezzi sono già stati annunciati. Memorizzare nella cache costerà $18,75 per MTok, e l’utilizzo del prompt memorizzato sarà $1,50 per MTok.

Un limite da notare è che i prompt memorizzati nella cache hanno una durata di solo 5 minuti e vengono aggiornati a ogni utilizzo, come sottolineato dall’influencer dell’IA Simon Willison.

Anthropic si sta posizionando in una “corsa al ribasso” con rivali come Google e OpenAI, cercando di offrire opzioni più economiche per gli sviluppatori. Questa mossa segue un precedente abbassamento dei prezzi dei token da parte di Anthropic.

Altre piattaforme, come Lamina, utilizzano sistemi di caching dei prompt simili per ridurre i costi delle GPU. Tuttavia, il caching dei prompt di Anthropic si differenzia dalle memorie dei modelli di grandi dimensioni, come GPT-4o di OpenAI, che ricorda preferenze e dettagli ma non memorizza i prompt e le risposte effettivi.

Il nuovo ed economico sistema di caching dei Prompt di Anthropic Claude

DiFantasy

Di Fantasy

Articoli correlati

Lyria 3 in Gemini: il nuovo sistema di Google per creare musica da zero usando l’AI

Ora è possibile modificare le diapositive di Google NotebookLM una per una e salvarle in PowerPoint

Il Robot Gala Show della CCTV spinge la domanda di robot umanoidi nel mercato cinese

Ultimi Post

Lyria 3 in Gemini: il nuovo sistema di Google per creare musica da zero usando l’AI

Ora è possibile modificare le diapositive di Google NotebookLM una per una e salvarle in PowerPoint

Il Robot Gala Show della CCTV spinge la domanda di robot umanoidi nel mercato cinese

Perplexity sospende la pubblicità per tutelare la fiducia degli utenti e rafforzare il modello basato su abbonamenti