Nel cuore dell’evoluzione dell’intelligenza artificiale contemporanea, dove i modelli non si limitano più a rispondere a singole richieste ma operano in contesti prolungati, multi-turn e multi-agente, VAST Data ha annunciato una rivoluzione nell’architettura dell’inference AI insieme a Nvidia, pensata per rispondere alle sfide emergenti di questa nuova era. Quello che l’azienda definisce un passo verso l’“inference architecture per l’era agentica” non è un semplice aggiornamento tecnologico, ma una trasformazione profonda del modo in cui i sistemi di intelligenza artificiale gestiscono il contesto, la memoria e l’efficienza operativa su scala gigascale.
Fino a poco tempo fa, l’inference — ovvero la fase in cui un modello genera risposte sulla base di un input — era vista come un compito in gran parte dominato dalla potenza di calcolo delle GPU. Questo paradigma, però, sta rapidamente cambiando. Quando un agente AI deve mantenere una conversazione o una serie di azioni che si estendono oltre un singolo prompt, la vera sfida diventa la gestione del contesto storico, rappresentato tecnicamente come KV cache (cache key-value), ovvero informazioni derivanti da precedenti interazioni che devono essere memorizzate, recuperate e condivise rapidamente tra più processi e nodi di calcolo. In questi scenari, non è più sufficiente avere GPU potenti: la velocità con cui il sistema può accedere, condividere e riutilizzare la memoria di contesto diventa il vero fattore che determina prestazioni e scalabilità.
Proprio per affrontare questa complessità, VAST Data sta riprogettando il percorso dati dell’inference utilizzando il proprio AI Operating System (AI OS) in esecuzione nativamente sui Data Processing Unit (DPU) Nvidia BlueField-4, parte dell’infrastruttura denominata NVIDIA Inference Context Memory Storage Platform. Questa architettura elimina molte delle limitazioni dei sistemi tradizionali, in cui la memoria di contesto risiede localmente sulle GPU o deve essere gestita tramite passaggi multipli tra diversi livelli di storage. Con il nuovo design, il sistema può accedere a una cache condivisa su scala pod, ovvero su cluster di nodi, con accesso deterministico e prestazioni prevedibili anche sotto carichi di lavoro molto elevati.
Il concetto alla base di questa trasformazione è semplice ma potente: l’inference non è più vista come un semplice compito di calcolo da consegnare al processore, ma come un sistema di memoria olistico in cui la continuità del contesto è centrale. Invece di dover continuamente trasferire dati tra GPU e storage secondario, il VAST AI OS integrato con BlueField-4 consente che le informazioni di contesto siano disponibili come risorsa di sistema condivisa e non più confinate in singoli modelli o processi isolati. Questo elimina la necessità di ripetuti spostamenti di dati, riduce i colli di bottiglia e diminuisce quel fenomeno chiamato “time-to-first-token” — ovvero il tempo necessario perché un sistema inizi a generare una risposta coerente — rendendo il processo molto più efficiente sotto carichi di inferenza persistenti e concorrenti.
Un’altra innovazione chiave è l’integrazione di un’architettura chiamata DASE (Disaggregated Shared-Everything), che permette a ogni nodo all’interno di un cluster di accedere a un namespace globale condiviso per la memoria di contesto senza il tradizionale overhead di coordinamento e sincronizzazione. In pratica, ogni nodo può leggere e scrivere nel contesto comune con la stessa facilità con cui accede alla propria memoria locale, ma con tutti i vantaggi della coerenza globale. Questo è particolarmente vantaggioso quando centinaia o migliaia di agenti AI lavorano in parallelo su compiti complessi e devono mantenere una visione coerente dello stato del mondo e della conversazione in corso.
Questa nuova visione di inference come sistema di memoria si riflette anche nel modo in cui VAST e Nvidia immaginano l’integrazione dell’AI nelle applicazioni enterprise. Non si tratta solo di velocizzare processi isolati, ma di costruire un’infrastruttura di livello di produzione in cui modelli avanzati, agenti autonomi e pipeline di inferenza su larga scala possano operare in modo coerente, sicuro e governabile. Le tecnologie sviluppate da VAST includono controlli di isolamento, auditabilità e gestione del ciclo di vita dei dati, elementi essenziali per applicazioni reali che devono rispettare regolamenti, proteggere informazioni sensibili e garantire continuità operativa.
Con la crescita rapida dell’intelligenza artificiale agentica — dove sistemi complessi di agenti cooperanti devono tenere traccia di storie molto lunghe, fare ragionamenti multipli e utilizzare risorse condivise — l’architettura tradizionale di inference sta mostrando limiti crescenti. La proposta di VAST Data, integrata con Nvidia BlueField-4 e l’ecosistema AI Data Platform, punta a superare questi limiti, ridefinendo le fondamenta dell’inference per renderle adatte alla prossima generazione di applicazioni AI, dove la capacità di gestire il contesto diventa tanto importante quanto la potenza di calcolo stessa.
