Il rapido sviluppo dell’intelligenza artificiale generativa e dei modelli linguistici di grandi dimensioni sta trasformando profondamente l’architettura delle infrastrutture cloud utilizzate per il calcolo ad alte prestazioni. Con l’aumento esponenziale delle richieste di inferenza – ovvero delle operazioni attraverso cui i modelli AI generano risposte alle domande degli utenti – i principali fornitori di servizi cloud stanno cercando nuove soluzioni hardware in grado di migliorare la velocità di elaborazione, ridurre i costi operativi e offrire prestazioni più elevate ai clienti. In questo contesto, Amazon Web Services (AWS) ha annunciato l’intenzione di introdurre nei propri servizi cloud i chip di inferenza sviluppati da Cerebras Systems, una delle aziende emergenti nel settore dei processori dedicati all’intelligenza artificiale.
Secondo quanto comunicato da AWS, il nuovo servizio infrastrutturale sarà disponibile nella seconda metà del 2026 e combinerà le capacità dei chip proprietari di Amazon con quelle del processore WSE (Wafer Scale Engine) sviluppato da Cerebras. Questa collaborazione rappresenta la prima adozione dei chip Cerebras da parte di un hyperscaler, ossia un operatore cloud su larga scala, e riflette la crescente necessità di soluzioni hardware altamente specializzate per sostenere il carico computazionale generato dai sistemi di intelligenza artificiale di nuova generazione.
Il sistema progettato da AWS e Cerebras è basato su una suddivisione delle operazioni di inferenza in diverse fasi computazionali, ciascuna delle quali viene gestita da hardware specializzato. Il chip Trainium 3 di Amazon si occuperà della fase di precompilazione, cioè del processo in cui gli input forniti dagli utenti vengono elaborati e preparati per l’elaborazione da parte del modello AI. Successivamente, il chip WSE di Cerebras entrerà in funzione per gestire la fase di decodifica, ovvero il momento in cui il modello genera effettivamente la risposta sotto forma di testo o altri contenuti.
Questa architettura rappresenta un esempio di quello che nel settore viene definito calcolo disaggregato. In questo modello, le diverse fasi del processo computazionale vengono separate e assegnate a componenti hardware differenti, ciascuna progettata per eseguire una specifica funzione nel modo più efficiente possibile. L’obiettivo di questa strategia è migliorare le prestazioni complessive del sistema sfruttando le caratteristiche specialistiche di ogni chip.
Tradizionalmente, le operazioni di inferenza vengono eseguite su GPU o su processori dedicati che gestiscono l’intero processo di elaborazione. Tuttavia, con l’aumento delle dimensioni dei modelli linguistici e del volume di richieste generate dagli utenti, questo approccio può diventare meno efficiente dal punto di vista energetico e computazionale. Suddividere il carico di lavoro tra diversi componenti hardware consente invece di ottimizzare l’utilizzo delle risorse e migliorare la velocità di elaborazione delle risposte.
Uno dei principali problemi associati al calcolo disaggregato riguarda la necessità di trasferire dati tra diversi chip, un’operazione che può introdurre latenza e ridurre le prestazioni complessive del sistema. Tuttavia, sia AWS sia Cerebras hanno affermato che questo potenziale svantaggio può essere compensato dall’utilizzo di chip altamente specializzati, progettati per gestire in modo estremamente efficiente le fasi specifiche del processo di inferenza.
Secondo Nafea Bshara, vicepresidente di AWS responsabile delle tecnologie di intelligenza artificiale, i servizi basati esclusivamente sul chip Trainium potrebbero risultare più economici per alcuni tipi di carico di lavoro. Tuttavia, la combinazione tra Trainium e WSE rappresenterà un’opzione particolarmente interessante per le applicazioni in cui la velocità di risposta è un fattore critico, come nel caso dei sistemi di intelligenza artificiale utilizzati per assistenti virtuali, chatbot avanzati e servizi di generazione di contenuti in tempo reale.
La collaborazione con AWS rappresenta un passo strategicamente importante anche per Cerebras Systems, che si sta preparando per una futura quotazione in borsa. L’azienda è nota per aver sviluppato una delle architetture di processori AI più innovative degli ultimi anni. Il suo chip WSE si distingue infatti per l’utilizzo di un design su scala wafer, una soluzione che consente di realizzare un processore estremamente grande costituito da un singolo chip invece che da più componenti interconnessi.
Questo approccio differisce significativamente dalle architetture tradizionali basate su GPU, che utilizzano numerosi chip collegati tra loro attraverso sistemi di interconnessione ad alta velocità. Il design a wafer unico di Cerebras consente di ridurre la latenza nelle comunicazioni interne al processore e di aumentare la quantità di dati che possono essere elaborati simultaneamente.
Un altro elemento distintivo dell’architettura Cerebras è la ridotta dipendenza dalla memoria ad alta larghezza di banda, nota come HBM (High Bandwidth Memory). Le GPU utilizzate per l’intelligenza artificiale, in particolare quelle prodotte da Nvidia, fanno largo uso di questo tipo di memoria per gestire i grandi volumi di dati necessari per l’addestramento e l’inferenza dei modelli. Tuttavia, la memoria HBM è costosa e complessa da produrre, e rappresenta uno dei principali fattori di costo nelle infrastrutture di calcolo per l’intelligenza artificiale.
La progettazione dei chip Cerebras mira a ridurre questa dipendenza attraverso un’architettura che integra direttamente grandi quantità di memoria e capacità di elaborazione all’interno dello stesso wafer. Questo approccio consente di semplificare l’architettura del sistema e di migliorare l’efficienza energetica delle operazioni di inferenza.
Il CEO di Cerebras, Andrew Feldman, ha sottolineato che l’integrazione dei chip dell’azienda nell’infrastruttura AWS rappresenta un’opportunità significativa per ampliare la diffusione delle proprie tecnologie. Grazie all’ampia base di clienti di Amazon Web Services, i processori Cerebras potranno essere utilizzati da un numero molto maggiore di aziende e sviluppatori impegnati nello sviluppo di applicazioni basate su intelligenza artificiale.
