Lambda, azienda di San Francisco con oltre 12 anni di esperienza nel fornire GPU on-demand per ricercatori nel campo del machine learning e sviluppatori di modelli di intelligenza artificiale, ha recentemente ampliato la sua offerta con il lancio dell’API Lambda Inference: questo servizio consente alle aziende di implementare modelli e applicazioni AI in produzione senza la necessità di procurarsi o mantenere infrastrutture di calcolo proprie.
L’API supporta modelli all’avanguardia come Llama 3.3 e 3.1 di Meta, Hermes-3 di Nous e Qwen 2.5 di Alibaba, rendendola una delle opzioni più accessibili per la comunità del machine learning. La struttura dei prezzi è competitiva, partendo da $0,02 per milione di token per modelli più piccoli come Llama-3.2-3B-Instruct, fino a $0,90 per milione di token per modelli più avanzati come Llama 3.1-405B-Instruct.
Robert Brooks, vicepresidente delle vendite di Lambda, ha sottolineato che la piattaforma è completamente verticalizzata, permettendo significativi risparmi sui costi per gli utenti finali rispetto ad altri provider come OpenAI. Inoltre, non ci sono limiti di velocità che ostacolano la scalabilità, e gli sviluppatori possono iniziare a utilizzare il servizio in meno di cinque minuti, semplicemente generando una chiave API sul sito di Lambda.
Questo sviluppo si inserisce in un contesto di crescente competizione nel settore dei servizi di inferenza AI. Ad esempio, Cerebras Systems ha recentemente lanciato un servizio di inferenza IA che promette prestazioni superiori rispetto alle soluzioni basate su GPU di Nvidia, offrendo velocità di elaborazione fino a 20 volte superiori e costi significativamente ridotti.