Con l’espansione continua dell’intelligenza artificiale (AI) e la sua crescente integrazione nei flussi di lavoro aziendali, le imprese sono alla ricerca di soluzioni per ridurre i costi associati all’esecuzione dei modelli AI. In risposta a questa esigenza, Amazon Web Services (AWS) ha annunciato due nuove funzionalità per la sua piattaforma Bedrock: l’Intelligent Prompt Routing e il Prompt Caching.
Durante il keynote all’AWS re:Invent, Swami Sivasubramanian, vicepresidente per l’AI e i Dati di AWS, ha presentato l’Intelligent Prompt Routing, progettato per indirizzare le richieste ai modelli più appropriati in base alla complessità del compito. Questo approccio consente di evitare l’utilizzo di modelli di grandi dimensioni per query semplici, ottimizzando così le risorse. Secondo AWS, l’Intelligent Prompt Routing può ridurre i costi fino al 30% senza compromettere l’accuratezza. Gli utenti possono selezionare una famiglia di modelli, e il sistema instraderà le richieste al modello di dimensioni adeguate all’interno di quella famiglia.
Un esempio pratico dell’applicazione di questa tecnologia è fornito da Argo Labs, azienda specializzata in agenti vocali e cliente di AWS. Argo Labs utilizza l’Intelligent Prompt Routing per garantire che le richieste dei clienti siano gestite dal modello più adatto: domande semplici come “Hai una prenotazione?” vengono elaborate da modelli più piccoli, mentre quesiti più complessi come “Quali opzioni vegane sono disponibili?” sono affidati a modelli più grandi.
Oltre all’Intelligent Prompt Routing, AWS ha introdotto il Prompt Caching su Bedrock. Questa funzionalità permette di memorizzare richieste comuni o ripetute, evitando di interrogare nuovamente il modello e generare ulteriori token. Ciò è particolarmente utile quando le richieste vengono ripetute frequentemente, poiché i costi di generazione dei token possono aumentare rapidamente. Il Prompt Caching consente di ridurre i costi fino al 90% e la latenza fino all’85% per i modelli supportati.
È importante notare che AWS arriva relativamente tardi in questo ambito. Altre piattaforme offrono già funzionalità simili per aiutare gli utenti a ridurre i costi nel riutilizzo delle richieste. Ad esempio, Anthropic ha introdotto il Prompt Caching per i suoi modelli Claude 3.5 Sonnet e Haiku, mentre OpenAI ha ampliato il Prompt Caching per la sua API.
L’esecuzione di applicazioni AI rimane costosa, non solo per l’addestramento dei modelli, ma anche per il loro utilizzo. Le aziende segnalano che i costi associati all’AI rappresentano ancora una delle principali barriere a una diffusione più ampia. Man mano che le imprese si orientano verso casi d’uso agentici, esiste un costo associato all’interrogazione del modello e all’avvio delle attività da parte dell’agente. Metodi come il Prompt Caching e l’Intelligent Prompt Routing possono contribuire a ridurre i costi limitando il numero di richieste al modello per rispondere a una query.