Immagine AI

Nell’evoluzione dell’intelligenza artificiale, un tema ricorrente è come eseguire modelli grandi (LLM) con efficienza su hardware accessibile. Acquistare acceleratori potenti e costosi è una strada, ma non l’unica né sempre la più sostenibile. È qui che entra in scena EXO, il nuovo framework open source annunciato da EXO Labs, che propone un approccio audace: non puntare a una singola macchina superpotente, ma mettere in sinergia dispositivi diversi in un’“inferenza disaggregata”.

La notizia che ha catturato l’attenzione è una dimostrazione recente: EXO ha combinato due sistemi NVIDIA DGX Spark con un Mac Studio dotato di chip Apple M3 Ultra, integrandoli in un’unica pipeline di LLM inferenza. Il risultato? Prestazioni sorprendenti: sul modello Llama 3.1 8B con prompt da 8.000 token, la configurazione ibrida ha raggiunto un’accelerazione di circa 2,8× rispetto al solo Mac Studio, pur mantenendo la rapidità del Mac nella generazione dei token.

Ma cosa significa “inferenza disaggregata”? Significa suddividere il lavoro richiesto da un modello linguistico in segmenti, assegnando i pezzi giusti a macchine con caratteristiche hardware complementari, in modo da far collaborare le forze. In questo caso, il modello viene scomposto in due fasi: la fase di prefill, quando il modello assorbe e processa l’input (più intensiva dal punto di vista computazionale), e la fase di decodifica, in cui token vengono generati uno dopo l’altro (più sensibile alla larghezza di banda e alla memoria).

EXO distribuisce la fase di prefill alle GPU potenti dei DGX Spark, mentre affida la decodifica al Mac M3 Ultra, che eccelle in throughput e ampiezza del bus di memoria. Per far sì che i due sistemi operino insieme, EXO effettua lo streaming dello KV cache (i dati intermedi interni) da un dispositivo all’altro, strato dopo strato, senza interruzioni.

L’innovazione non è tanto nel concetto stesso di inferenza distribuita — idee simili esistono da tempo — quanto nella realizzazione pratica che sfrutta hardware “di uso comune” e modella il coordinamento in modo efficiente. EXO non richiede configurazioni complicate o che tutti i dispositivi abbiano lo stesso tipo di acceleratore: può orchestrare cluster e dispositivi eterogenei (desktop, workstation, laptop) e bilanciare i carichi in base alle caratteristiche di ciascuno.

Dietro il progetto, il repository su GitHub mostra che EXO supporta modelli come LLaMA (tramite MLX o tinygrad), quantizzazione, partizionamento dei modelli e una rete peer-to-peer tra i nodi, senza architettura master-worker rigida. I dispositivi si scoprono tra loro automaticamente, la suddivisione di memoria e lavoro è basata su risorse disponibili, e ogni nodo contribuisce secondo le proprie capacità.

Dal punto di vista pratico, la dimostrazione con DGX + M3 Ultra conferma che, anche con un modello relativamente “piccolo” (8B), il guadagno è significativo. È atteso che per modelli più grandi o prompt più lunghi, i benefici aumentino: più complessità significa maggiore guadagno potenziale nella distribuzione dell’elaborazione.

Tuttavia, EXO è ancora in fase sperimentale: la versione attuale è 0.0.15-alpha (rilasciata a marzo 2025) e non è ancora un tool plug-and-play per uso consumer. La versione 1.0, che includerà scheduling automatico e ottimizzazioni per GPU eterogenee, non è ancora uscita.

Di Fantasy