Cerebras porta Kimi K2.6 vicino ai 1.000 token al secondo e sfida l’inferenza AI basata su GPU

Cerebras Systems ha iniziato a distribuire ai clienti enterprise il modello open-weight Kimi K2.6 sviluppato da Moonshot AI, mostrando prestazioni di inferenza estremamente superiori rispetto alle infrastrutture AI tradizionali basate su GPU. Durante i test effettuati in ambienti enterprise reali, il sistema avrebbe raggiunto una velocità di circa 981 token al secondo, un valore significativamente superiore rispetto ai principali servizi cloud concorrenti.

Il risultato è particolarmente rilevante perché Kimi K2.6 appartiene alla categoria dei modelli frontier di grandissime dimensioni, con un’architettura da circa 1 trilione di parametri. Gestire modelli di questa scala rappresenta una delle sfide più complesse dell’infrastruttura AI moderna, soprattutto durante l’inferenza in tempo reale, dove la latenza diventa critica per agenti autonomi, coding assistant e workflow enterprise.

Secondo i dati diffusi dall’azienda, la velocità ottenuta sarebbe circa 6,7 volte superiore rispetto al servizio cloud GPU più rapido attualmente disponibile e circa 23 volte superiore rispetto alla media del settore. Il vantaggio emerge soprattutto nei workflow agentici complessi, dove i modelli devono processare grandi quantità di contesto, generare codice, eseguire reasoning multi-step e mantenere interazioni iterative in tempo reale.

Uno dei benchmark più evidenti riguarda proprio i task di coding agent. In un test con 10.000 token di input e 500 token di output, il sistema basato su hardware Cerebras avrebbe completato l’elaborazione in circa 5,6 secondi. Lo stesso task, eseguito sull’endpoint ufficiale di Kimi, avrebbe richiesto oltre 163 secondi. In termini pratici, questo significa che workflow software agentici che normalmente richiedono diversi minuti possono essere eseguiti quasi in tempo reale.

Il vantaggio competitivo deriva principalmente dall’architettura hardware sviluppata da Cerebras Systems. A differenza dell’approccio dominante basato su cluster multi-GPU NVIDIA, il sistema “WSE-3” (Wafer-Scale Engine 3) utilizza un singolo wafer di silicio come un enorme processore unificato. Invece di suddividere il modello tra numerose GPU separate, l’intera architettura riduce drasticamente la necessità di trasferimento dati inter-chip, che rappresenta uno dei principali colli di bottiglia dell’inferenza AI su larga scala.

Il Wafer-Scale Engine integra direttamente enormi quantità di memoria SRAM sul chip stesso, riducendo la latenza e aumentando drasticamente la bandwidth interna. Nel caso specifico di Kimi K2.6, il modello viene eseguito su un cluster CS-3 composto da 20 sistemi, con pesi quantizzati a 4 bit e calcoli effettuati in floating point a 16 bit. Questa combinazione permette di ridurre il consumo di memoria mantenendo elevate prestazioni computazionali.

Secondo Cerebras, la larghezza di banda interna del WSE-3 sarebbe oltre 200 volte superiore rispetto all’architettura NVL72 di NVIDIA. Questo elemento è particolarmente importante per i modelli MoE (Mixture of Experts), come Kimi K2.6, dove enormi quantità di dati devono essere trasferite rapidamente tra diversi “expert layer” durante l’inferenza. Nei sistemi GPU tradizionali, questi trasferimenti introducono latenze significative a causa della comunicazione continua tra dispositivi separati.

L’aspetto strategico più interessante è che il servizio non viene inizialmente distribuito come API pubblica consumer, ma come infrastruttura dedicata per clienti enterprise, in particolare grandi aziende Fortune 500. Secondo quanto riportato, aziende dei settori software, finanziario e sanitario stanno già testando la piattaforma in ambienti produttivi reali, soprattutto per applicazioni agentiche ad alta intensità computazionale.

Questa evoluzione evidenzia anche una trasformazione più ampia del mercato AI. Per anni il settore ha considerato le GPU NVIDIA come infrastruttura praticamente inevitabile per training e inferenza dei modelli frontier. Tuttavia, la crescita esplosiva degli agenti AI e dei workload reasoning-heavy sta iniziando a favorire architetture alternative ottimizzate specificamente per inferenza ultra-rapida e bassa latenza.

Parallelamente, Cerebras Systems sta vivendo una fase di forte attenzione finanziaria dopo una delle più grandi IPO tecnologiche dagli anni di Uber. Dopo un forte aumento iniziale del valore azionario successivo alla quotazione, il titolo ha registrato una correzione dovuta a prese di profitto e volatilità del mercato. Nonostante ciò, il posizionamento dell’azienda come possibile alternativa infrastrutturale alle GPU tradizionali continua ad attirare interesse crescente, soprattutto nel segmento enterprise dedicato agli agenti AI avanzati e ai modelli di grandissime dimensioni.

Cerebras porta Kimi K2.6 vicino ai 1.000 token al secondo e sfida l’inferenza AI basata su GPU

DiFantasy

Di Fantasy

Articoli correlati

SafeDrive porta l’intelligenza artificiale nel controllo di smartphone, cinture e documenti dei veicoli

Gemini Nano 4 debutta sui nuovi pieghevoli Samsung con l’AI eseguita direttamente sul dispositivo

OpenAI avrebbe scoperto dopo una settimana che un proprio agente AI aveva violato Hugging Face

Ultimi Post

SafeDrive porta l’intelligenza artificiale nel controllo di smartphone, cinture e documenti dei veicoli

Gemini Nano 4 debutta sui nuovi pieghevoli Samsung con l’AI eseguita direttamente sul dispositivo

OpenAI avrebbe scoperto dopo una settimana che un proprio agente AI aveva violato Hugging Face

Claude Record a Skill trasforma una registrazione dello schermo in una procedura automatizzabile