L’IA generativa sta portando a una rinascita del mercato dell’intelligenza artificiale. Allo stesso tempo, i ricercatori stanno studiando metodi alternativi per accelerare i carichi di lavoro dell’IA. Un gruppo di ricercatori dell’Università di Washington, in collaborazione con un esperto di Microsoft, ha presentato un interessante approccio per migliorare l’efficienza dei carichi di lavoro LLM.
Nel loro documento intitolato “Chiplet Cloud”, hanno descritto dettagliatamente il loro piano per costruire un supercomputer AI basato sulla produzione di chiplet. Rispetto alle GPU tradizionali, questo modello di elaborazione ha dimostrato un notevole miglioramento del 94%. Anche rispetto al TPUv4 AI di Google, la nuova architettura ha mostrato un miglioramento del 15%.
Come già discusso in precedenza, l’industria sta adottando sempre più la progettazione di chip specializzati. Seguendo le orme di aziende come Cerebras, Samba Nova e GraphCore, il chiplet cloud potrebbe rappresentare il futuro dell’intelligenza artificiale aziendale.
Il documento descrive un’architettura in cui i chip ASIC (circuito integrato specifico per l’applicazione) costituiscono la maggior parte della potenza di calcolo. Gli ASIC rappresentano il massimo sviluppo dei chip specializzati, come dimostrato dalla loro adozione da parte di aziende come Intel (Meteor Lake) e AMD (Zen). Mentre questi produttori di chip utilizzano gli ASIC come parte più piccola dei loro chip generici, il documento propone di costruire l’intera architettura basandosi sugli ASIC.
Sfruttando un ASIC ottimizzato per i calcoli matriciali matematici, che costituiscono la maggior parte dei carichi di lavoro AI, i ricercatori hanno dimostrato un notevole aumento delle prestazioni e un risparmio sui costi rispetto alle GPU. In termini di costo totale di proprietà per token generati, il chiplet cloud ha registrato un miglioramento del 94% rispetto a un cloud di GPU A100 di ultima generazione di NVIDIA.
Questo notevole risparmio sui costi deriva principalmente dalle ottimizzazioni a livello di silicio che derivano dalla creazione di chip personalizzati. Oltre alle ottimizzazioni per i calcoli con matrici matematiche, il chip dispone anche di grandi quantità di memoria in forma di SRAM (memoria statica ad accesso casuale). Questo è un elemento cruciale per qualsiasi sistema di carichi di lavoro LLM, in quanto consente di archiviare il modello nella memoria veloce.
Questo è stato a lungo un problema per le GPU, poiché anche le loro memorie più veloci non possono tenere il passo con i requisiti dei LLM. Ciò porta a un collo di bottiglia, in cui la GPU non può essere utilizzata al massimo delle sue capacità a causa dei limiti di larghezza di banda della memoria. Il chiplet cloud non soffre di questo problema, in quanto dispone di una memoria a bassa latenza posizionata direttamente accanto ai chip di elaborazione.
Questi chip sono poi collegati tra loro utilizzando una struttura toroidale 2D, che secondo i ricercatori è sufficientemente flessibile per diversi tipi di carichi di lavoro AI. Queste caratteristiche rappresentano solo una parte dell’intero quadro, poiché il vantaggio principale dell’introduzione di un chiplet cloud risiede nella riduzione dei costi.
Come già menzionato, i fornitori di servizi cloud stanno investendo considerevolmente nella ricerca di chip AI specializzati. AWS ha Graviton e Inferentia, Google ha TPU, ma Microsoft era rimasta indietro fino ad ora. Questa ricerca potrebbe cambiare il modo in cui le aziende affrontano il cloud computing per l’IA.
Inizialmente, la produzione dei nodi necessari per la cloud di chiplet sarebbe molto meno costosa rispetto ai concorrenti. I ricercatori hanno stimato che la costruzione di un cluster GPU comparabile costerebbe circa 40 miliardi di dollari, senza considerare le spese operative associate a macchine così potenti.
D’altra parte, il costo del chiplet cloud è stato stimato intorno ai 35 milioni di dollari, rendendolo estremamente competitivo, soprattutto se si considerano i notevoli guadagni in termini di efficienza. Inoltre, la frammentazione del chip di silicio in chiplet migliora la produzione, riducendo ulteriormente il costo totale di proprietà.
Inoltre, grazie all’architettura 2D toroidale, questi ASIC saranno utilizzati appieno, a differenza del 40% di utilizzo per i carichi di lavoro LLM su TPU e del 50% su GPU. Inoltre, questi chip possono essere implementati secondo i requisiti software e hardware delle aziende, rendendoli ancora più adatti per l’implementazione nel cloud.
Il tipo di cloud computing del chiplet e la capacità di memoria possono essere modificati a seconda del tipo di modello distribuito su di esso. Questo da solo farà sì che le prime aziende di intelligenza artificiale facciano la fila per il prodotto, poiché i cloud di dimensioni personalizzate possono aiutarli a risparmiare sui costi ottimizzando al contempo casi d’uso ristretti. Inoltre, il cloud può anche essere configurato per latenza o TCO per token, il che significa che le aziende possono scegliere di avere i propri modelli veloci o accurati.
Le possibilità sono infinite con l’architettura cloud chiplet, che potrebbe anche essere il motivo per cui Microsoft sta conducendo ricerche in questo campo. Se questa impresa si fa strada in Azure, Microsoft non solo avrebbe una merce di scambio unica contro AWS e GCP, ma potrebbe anche potenziare le API di OpenAI e il proprio servizio Azure OpenAI. Sebbene sia ancora in fase di ricerca, i vari vantaggi del chiplet cloud potrebbero renderlo il cloud computing di riferimento per l’IA.