Immagine AI

Intel e SambaNova hanno annunciato un nuovo blueprint infrastrutturale per l’agentic AI, una tipologia di sistemi basati su agenti autonomi che combinano ragionamento, uso di strumenti e orchestrazione di workflow complessi. L’iniziativa introduce un’architettura eterogenea che integra GPU, unità di calcolo specializzate e CPU tradizionali, con l’obiettivo di superare i limiti delle infrastrutture AI basate esclusivamente su acceleratori grafici. Il progetto è pensato per ambienti enterprise e cloud e dovrebbe essere disponibile nella seconda metà del 2026.

La proposta si basa su una divisione funzionale delle diverse fasi dell’inferenza AI. Le GPU vengono utilizzate per la fase di prefill, ossia l’elaborazione iniziale dei prompt e la costruzione delle cache di contesto; le unità RDU (Reconfigurable Dataflow Units) sviluppate da SambaNova sono dedicate alla fase di decode, responsabile della generazione dei token in uscita; le CPU Intel Xeon 6 gestiscono invece l’orchestrazione degli agenti, l’esecuzione degli strumenti e il coordinamento del sistema. Questo modello distribuito punta a ottimizzare prestazioni e consumo energetico assegnando ogni fase al tipo di hardware più adatto.

Il contesto tecnico del progetto nasce dall’evoluzione dei sistemi agentici, che eseguono sequenze iterative di ragionamento, chiamate a strumenti e accesso a database. Questo tipo di workload genera pattern di inferenza diversi rispetto ai modelli tradizionali e mette in evidenza i limiti delle architetture GPU-only, soprattutto in termini di latenza e scalabilità. L’architettura proposta introduce quindi una pipeline suddivisa in componenti specializzate, in cui ciascun elemento è ottimizzato per un compito specifico.

Nel blueprint, le CPU Xeon 6 assumono un ruolo centrale non solo come host ma anche come motore operativo per l’esecuzione delle azioni degli agenti. Le CPU gestiscono la distribuzione dei workload, l’esecuzione di codice, l’interazione con API e strumenti esterni e il coordinamento delle operazioni. Le RDU svolgono invece il compito di acceleratori per l’inferenza, ottimizzati per throughput elevato e bassa latenza nella generazione dei token, mentre le GPU mantengono il vantaggio nelle operazioni altamente parallele della fase iniziale.

L’approccio riflette una tendenza crescente verso infrastrutture AI eterogenee, in cui nessun singolo chip è ottimale per tutte le fasi del ciclo di inferenza. La suddivisione delle responsabilità tra GPU, CPU e acceleratori dedicati consente di bilanciare prestazioni e costi, riducendo il numero complessivo di componenti necessari per raggiungere determinati livelli di throughput. Secondo l’analisi tecnica, questa separazione architetturale migliora l’efficienza complessiva e facilita la scalabilità in ambienti di produzione.

Un elemento rilevante riguarda la compatibilità software. Le CPU Xeon 6 garantiscono supporto all’ecosistema x86, che resta dominante nei data center aziendali, consentendo l’integrazione con strumenti esistenti e framework di sviluppo già utilizzati per agenti AI e pipeline di automazione. Questo aspetto riduce le barriere di adozione rispetto a infrastrutture completamente basate su acceleratori specializzati.

L’architettura è progettata per supportare applicazioni agentiche avanzate come coding agent, orchestrazione di workflow complessi e sistemi multi-step. Questi scenari richiedono inferenza iterativa e bassa latenza tra le varie fasi di elaborazione, caratteristiche che rendono inefficiente l’utilizzo esclusivo di GPU. L’integrazione di hardware differenziato consente quindi di ottimizzare ogni passaggio del processo decisionale degli agenti.

Il blueprint si inserisce in una più ampia evoluzione del mercato dell’infrastruttura AI, che sta passando da cluster GPU monolitici a sistemi modulari orientati all’inferenza. L’obiettivo è migliorare l’economia operativa dei modelli di grandi dimensioni e rendere sostenibile l’esecuzione continua di agenti autonomi su larga scala. Questo cambiamento riflette l’emergere dell’agentic AI come nuova fase dell’intelligenza artificiale, in cui i modelli non si limitano a generare testo ma eseguono sequenze di azioni coordinate.

Di Fantasy