La competizione nell’infrastruttura AI sta entrando in una fase in cui il collo di bottiglia non è più soltanto la potenza di calcolo pura, ma soprattutto la latenza di inferenza, la gestione della memoria e la velocità con cui un modello riesce a generare token in tempo reale. In questo contesto, Cerebras sta spingendo la propria architettura wafer-scale come alternativa ai cluster GPU tradizionali, sostenendo di essere riuscita a eseguire modelli da un trilione di parametri con prestazioni fino a quasi sette volte superiori rispetto ai principali cloud GPU utilizzati oggi per l’inferenza AI.
Il punto centrale dell’approccio Cerebras è l’eliminazione di gran parte dell’overhead tipico delle infrastrutture GPU distribuite. Nei sistemi basati su GPU convenzionali, specialmente con modelli frontier di grandi dimensioni, il problema principale non è soltanto il calcolo, ma il continuo trasferimento di dati tra chip differenti, memoria HBM, interconnessioni NVLink e networking di cluster. Questo introduce latenze elevate, sincronizzazioni costanti e un forte costo energetico e operativo. Cerebras utilizza invece una struttura wafer-scale monolitica nella quale enormi quantità di core AI e memoria ad altissima banda sono integrate all’interno di un singolo processore di dimensioni eccezionali, riducendo drasticamente il traffico dati off-chip.
La base hardware di questa strategia è il WSE-3, il terzo Wafer Scale Engine dell’azienda, costruito su processo TSMC a 5 nm e composto da circa 4 trilioni di transistor, 900.000 core AI dedicati e 44 GB di SRAM on-chip con una banda memoria dichiarata di 21 petabyte al secondo. Numeri di questo tipo cambiano completamente il comportamento operativo dell’inferenza generativa, perché il modello può mantenere una parte molto più ampia delle attivazioni e delle operazioni direttamente sul chip, senza dover attraversare continuamente la rete di comunicazione di un cluster GPU.
Secondo quanto dichiarato dall’azienda, il vantaggio diventa particolarmente evidente nei workload inferenziali su LLM molto grandi, dove la velocità di generazione token è cruciale. Cerebras sostiene di aver raggiunto throughput estremamente elevati anche con modelli frontier e configurazioni multi-trillion parameter, mantenendo latenze significativamente inferiori rispetto alle infrastrutture GPU cloud tradizionali. Alcuni benchmark pubblicati mostrano prestazioni superiori di oltre dieci volte su specifici modelli open-source rispetto ai cloud GPU concorrenti, mentre l’azienda parla di accelerazioni comprese tra 15x e 18x in determinati scenari di inferenza ad alta velocità.
Dal punto di vista architetturale, questo approccio rappresenta anche un cambio di paradigma rispetto alla filosofia dominante dell’ultimo decennio. L’ecosistema AI moderno si è sviluppato quasi interamente attorno alla scalabilità orizzontale delle GPU: più nodi, più acceleratori, più networking. Cerebras sta invece tentando di riportare il focus sulla scalabilità verticale estrema, creando sistemi in cui il parallelismo avviene all’interno di un singolo wafer gigante anziché tramite migliaia di chip separati. Questo riduce il numero di sincronizzazioni necessarie e semplifica molte delle problematiche software associate al model parallelism tradizionale.
Un altro elemento importante riguarda il passaggio dell’industria AI dalla fase dominata dal training a quella dominata dall’inferenza. Con la crescita degli agenti AI, delle applicazioni real-time e dei sistemi conversational sempre attivi, il costo operativo dell’inferenza sta diventando economicamente più rilevante del training stesso. La capacità di generare token più rapidamente, con meno latenza e consumi più prevedibili, è quindi diventata una priorità strategica per i provider infrastrutturali.
Cerebras sta chiaramente cercando di posizionarsi come alternativa specializzata proprio in questa fase del mercato, concentrandosi meno sulla compatibilità universale tipica delle GPU e più sull’ottimizzazione estrema per LLM e workload generativi. L’azienda sostiene inoltre che la migrazione software dai workload NVIDIA ai propri sistemi richieda modifiche relativamente limitate, nel tentativo di abbassare la barriera di adozione per aziende già fortemente integrate nell’ecosistema CUDA.
L’aspetto più significativo è che questa competizione non riguarda più solo la disponibilità di FLOPS, ma la capacità di sostenere modelli giganteschi mantenendo velocità di risposta compatibili con applicazioni operative reali. Quando si parla di sistemi AI da trilioni di parametri, il vero problema non è semplicemente “farli girare”, ma renderli utilizzabili in tempo reale senza latenze ingestibili. È esattamente su questo punto che Cerebras sta cercando di differenziarsi rispetto alle infrastrutture GPU cloud tradizionali.
