Cerebras Systems ha recentemente annunciato un significativo avanzamento nel campo dell’intelligenza artificiale, stabilendo un nuovo record mondiale nella velocità di inferenza AI. L’azienda ha eseguito il modello di linguaggio di grandi dimensioni (LLM) “Llama 3.1 405B” di Meta a una velocità di 969 token al secondo, superando di 75 volte le prestazioni dei servizi AI basati su GPU offerti da AWS.
Il servizio di inferenza cloud di Cerebras, denominato “Cerebras Inference”, si distingue per l’utilizzo del proprio processore “Wafer Scale Engine” (WSE) di terza generazione, evitando l’uso di GPU tradizionali come quelle di NVIDIA o AMD. Questo approccio innovativo ha permesso all’azienda di raggiungere velocità di inferenza senza precedenti.
Durante il lancio del servizio nell’agosto 2024, Cerebras aveva già dimostrato prestazioni superiori eseguendo i modelli “Llama 3.1 8B” e “70B” a velocità 20 volte superiori rispetto ai servizi basati su GPU di AWS. Con l’introduzione del modello “Llama 3.1 405B”, che presenta 405 miliardi di parametri, l’azienda ha ulteriormente consolidato la sua posizione di leader nel settore.
Il WSE di Cerebras ha gestito il modello “Llama 3.1 405B” con una velocità di 969 token al secondo e un tempo di generazione del primo token di soli 0,24 secondi, stabilendo un nuovo standard nel campo dell’inferenza AI. In confronto, i servizi basati su GPU di AWS hanno registrato prestazioni significativamente inferiori, con una velocità di inferenza 75 volte più lenta. Anche rispetto ad altri concorrenti come Together AI e SambaNova, Cerebras ha mantenuto un vantaggio competitivo, con velocità rispettivamente 12 e 6 volte superiori.
Un aspetto notevole delle prestazioni di Cerebras è la capacità di mantenere velocità elevate anche con input di grandi dimensioni. Quando la dimensione del prompt è stata aumentata da 1.000 a 100.000 token, il servizio ha mantenuto una velocità di 539 token al secondo, mentre le soluzioni concorrenti hanno registrato velocità significativamente inferiori.
Attualmente, Cerebras sta collaborando con diverse aziende per testare il modello “Llama 3.1 405B” e prevede di renderlo disponibile al pubblico nel primo trimestre del 2025. Questo sviluppo rappresenta un passo significativo verso l’adozione di modelli AI di grandi dimensioni in applicazioni pratiche, offrendo prestazioni senza precedenti nel campo dell’inferenza AI.