Cerebras Systems ha svelato la sua innovativa soluzione per l’inferenza AI, chiamata Cerebras Inference. Questo servizio è stato progettato per essere il più veloce al mondo, offrendo prestazioni che superano di 20 volte quelle dei tradizionali sistemi basati su GPU e a un costo molto più contenuto.

Cerebras Inference è ottimizzato per una varietà di modelli di intelligenza artificiale, inclusi i modelli di linguaggio di grandi dimensioni (LLM). Ad esempio, può elaborare 1.800 token al secondo per il modello Llama 3.1 8B e 450 token al secondo per il modello Llama 3.1 70B. Questo è 20 volte più veloce delle soluzioni basate su GPU NVIDIA e il costo è notevolmente inferiore: solo 10 centesimi per milione di token per il modello Llama 3.1 8B e 60 centesimi per milione di token per il modello Llama 3.1 70B. Questo rappresenta un miglioramento di 100 volte nel rapporto qualità-prezzo rispetto alle offerte esistenti basate su GPU.

Una delle caratteristiche più impressionanti di Cerebras Inference è la sua capacità di mantenere un’alta precisione senza compromettere la velocità. A differenza di altri sistemi che sacrificano la qualità per migliorare le prestazioni, Cerebras Inference opera a 16 bit per garantire risultati precisi e di alta qualità.

L’inferenza AI è una delle aree a crescita più rapida nel settore del calcolo AI, rappresentando circa il 40% del mercato hardware AI totale. La tecnologia di alta velocità di Cerebras segna un cambiamento simile all’introduzione di Internet a banda larga, creando nuove opportunità per applicazioni AI avanzate e in tempo reale.

Andrew Ng, fondatore di DeepLearning.AI, ha commentato: “Cerebras ha sviluppato una capacità di inferenza incredibilmente veloce, che sarà molto utile per i flussi di lavoro che richiedono risposte rapide da modelli AI.”

Cerebras ha ricevuto ampio supporto da leader del settore e ha formato partnership strategiche per accelerare lo sviluppo delle applicazioni AI. Kim Branson, SVP di AI/ML presso GlaxoSmithKline, ha dichiarato: “La velocità e la scala offerte da Cerebras cambiano tutto.”

Anche aziende come LiveKit, Perplexity e Meter stanno utilizzando la tecnologia di Cerebras per migliorare le loro applicazioni AI, rendendole più reattive e simili a quelle umane.

Cerebras Inference è disponibile in tre livelli: Free, Developer ed Enterprise. Il piano Free offre accesso API gratuito con limiti generosi. Il piano Developer include distribuzione flessibile con modelli Llama 3.1 a prezzi competitivi. Il piano Enterprise è dedicato alle organizzazioni con carichi di lavoro intensivi e offre modelli ottimizzati e supporto personalizzato.

Il sistema Cerebras CS-3, alla base di Cerebras Inference, utilizza il Wafer Scale Engine 3 (WSE-3), un processore AI senza pari per dimensioni e velocità. Con una larghezza di banda di memoria 7.000 volte superiore a quella dell’H100 di NVIDIA, il WSE-3 gestisce molti utenti simultanei senza compromettere le prestazioni.

Cerebras Inference è progettato per essere facilmente integrato nei flussi di lavoro esistenti, grazie a un’API compatibile con l’API OpenAI Chat Completions. Questo semplifica la transizione e accelera lo sviluppo di applicazioni AI avanzate.

Cerebras Systems è un leader nel calcolo AI e lavora con istituzioni in sanità, energia, governo, ricerca scientifica e servizi finanziari. Le sue soluzioni stanno guidando l’innovazione in settori cruciali, contribuendo alla scoperta di farmaci e migliorando le capacità computazionali nella ricerca scientifica.

Di Fantasy