Nel giro di pochi trimestri, la conversazione sugli LLM è passata dal “quale modello scegliere” al “su quale silicio farlo correre”. È un cambio di prospettiva profondo, figlio di tre forze che si intrecciano: la fame di memoria e banda dei modelli di nuova generazione, l’urgenza di efficienza energetica e costi, e la spinta dei grandi cloud a smarcarsi da un monopolio di fatto. Nel quadro tracciato da Analytics India Magazine con la rassegna dei “10 chip più potenti che dominano la corsa agli LLM” compaiono i nomi che stanno definendo il presente e, soprattutto, le traiettorie del prossimo biennio: AWS Trainium2, Google TPU v7 (Ironwood), Cerebras WSE-3, AMD Instinct MI355X, oltre a soluzioni come NVIDIA Blackwell di nuova generazione (GB300/GB200) e l’Apple M5 sul fronte on-device. La lista è un’istantanea della partita in corso: chi punta sull’addestramento massivo, chi sull’inferenza a scala, chi sull’edge. E suggerisce un fatto semplice: gli LLM non sono più solo un problema di parametri, ma un problema di architetture.
Il primo “blocco” è quello dei chip pensati per allenare modelli enormi a costi e tempi sostenibili, dove conta la combinazione di FLOPS in formati a bassa precisione, latenza di comunicazione tra die e una memoria HBM sempre più capiente e vicina al calcolo. In questo campo, NVIDIA ha imposto negli ultimi diciotto mesi la piattaforma Blackwell, con il B200 e soprattutto il superchip GB200 (Grace-Blackwell) che accoppia due GPU B200 e una CPU Grace tramite NVLink C2C a 900 GB/s, innestate poi su reti InfiniBand/Ethernet fino a 800 Gb/s: è l’asse portante dei cluster più ambiziosi e il riferimento del mercato training.
Accanto al leader storico, AWS ha rilanciato con Trainium2, integrandolo nativamente in EC2 (istanze Trn2): 16 chip per nodo, fino a 20,8 PFLOPS FP8, 1,5 TB di HBM3 e 46 TB/s di banda memoria, connessi su EFA a 3,2 Tb/s. L’obiettivo dichiarato è comprimere il costo per addestramento e scalare su “ultra-cluster” da decine di migliaia di die dentro infrastrutture già ottimizzate per il traffico a bassa latenza. È una scommessa industriale più che “solo” tecnica: allineare silicio, rete e pricing del cloud per drenare carichi dal mondo NVIDIA.
Google, dal canto suo, ha inaugurato con TPU v7 “Ironwood” un’era più esplicitamente orientata all’inferenza su larga scala: è la prima TPU progettata “prima di tutto” per servire modelli di ragionamento e MoE, con un’attenzione quasi maniacale a efficienza, memoria vicina e scalabilità, come ribadito al lancio a Cloud Next e nei dettagli condivisi a Hot Chips 2025. Qui l’impatto non è solo nelle specifiche, ma nell’integrazione verticale: quando il chip “vive” dentro Vertex AI e i servizi Google, le scelte architetturali diventano leva di prodotto.
Poi c’è il capitolo wafer-scale. Cerebras WSE-3 ha rotto gli schemi tradizionali: un singolo “wafer-chip” grande quanto un piatto da portata, 46.255 mm², 4 trilioni di transistor, 900.000 core e 125 petaFLOPS di compute AI on-chip. Il senso è ridurre il “pedaggio” della comunicazione off-die portando vicino al calcolo memoria e banda, con effetti molto tangibili sull’addestramento di modelli giganteschi e sull’inferenza a throughput estremo. È un approccio radicale che sta maturando, con roadmap e installazioni che iniziano a fare massa.
Nel mezzo, AMD ha colmato rapidamente il gap generazionale. Il nuovo Instinct MI355X su CDNA 4 è pensato a tutto tondo per GenAI: 288 GB di HBM3E e 8 TB/s di banda, supporto esteso a MXFP6/MXFP4 e una piattaforma UBB 2.0 per densità elevate. Non è solo carta: grandi commit di cluster mostrano che ROCm e la catena software stanno maturando, e accordi come i maxi-ordini Oracle o i cluster TensorWave confermano che, in certe geografie di costo/prestazioni, AMD è ormai una scelta “di prima fascia”.
Intel, con Gaudi 3, ha spinto su un messaggio diverso: prezzo-prestazioni e rete Ethernet standard (24×200 GbE) per evitare lock-in e semplificare la scalabilità inter-server. Le specifiche ufficiali parlano di 128 GB di memoria e 3,7 TB/s di banda, con un posizionamento aggressivo soprattutto sugli scenari enterprise che vogliono crescere senza re-ingegnerizzare l’intero data center su InfiniBand. È un mosaico in cui conta molto l’ecosistema software e la migrazione “a basso attrito” da CUDA, oggi meno utopia di ieri.
Sul fronte dell’inferenza a bassa latenza, il caso Groq LPU resta peculiare: pipeline deterministica, throughput da centinaia di token al secondo per istanza e tempi al primo token minimi. Non è un chip “universale”, ma ottimizza un asse critico della user experience degli LLM, soprattutto nelle applicazioni conversazionali e di tool-use rapido; ed è la prova che nel post-training la specializzazione paga.
Dentro la top-10 segnalata emerge anche l’orizzonte on-device: l’Apple M5 rappresenta l’idea che parte dell’intelligenza generativa tornerà al bordo, con NPU più muscolose a ridurre latenza, costi di inference e vincoli di privacy. Non è il “chip per addestrare GPT-5”, ma il segnale che la curva di domanda non è monolitica: alla scala dei telefoni e dei laptop serve efficienza estrema per compiti quotidiani, mentre il cloud si prende i carichi gargantueschi. In parallelo, il perimetro Blackwell di nuova generazione (GB300/GB200) indica che NVIDIA non intende cedere terreno nella fascia alta, mentre i cloud spingono chip proprietari per riequilibrare potere d’acquisto e roadmap.
Se si osservano insieme queste famiglie, emergono tre linee narrative utili a orientarsi. La prima è la specializzazione d’uso: training “puro” con reti di interconnessione esasperate e HBM al limite della fisica; inferenza massiva con attenzione maniacale a latenza, throughput e costo per token; edge e on-device per riportare vicino all’utente una parte dell’intelligenza. La seconda è la politica industriale del cloud: Trainium e TPU non sono soltanto “chip”, sono leve di prezzo, espansioni di margine e strumenti di negoziazione nell’era in cui i costi AI dominano i conti economici dei provider. La terza è la competizione a fasi: oggi NVIDIA resta l’asse portante del training, ma i segnali di una progressiva diversificazione—tra Broadcom nel networking AI, AMD in crescita e custom silicon dei grandi—sono ormai quotidiani nelle analisi di mercato.
Per chi pianifica infrastrutture, questo significa scelte meno ideologiche e più “per carico”. Un gruppo di ricerca che addestra un modello da decine di miliardi potrebbe massimizzare time-to-train su Blackwell o su cluster ibridi CPU-GPU estremi; un’azienda che distribuisce assistenti in produzione 24/7 potrebbe preferire TPU Ironwood o LPU Groq per il profilo di latenza/costo; chi vuole un TCO sotto controllo valuterà la rete standard di Gaudi 3 e, man mano che maturano i tool, i vantaggi delle piattaforme AMD in densità e memoria. Ed è proprio la memoria la moneta del regno: HBM3E in quantità, con banda reale sfruttabile, è spesso più discriminante dei “tera-FLOPS” a brochure, perché i colli di bottiglia vivono tra compute e dati.
Se volessimo stringere il quadro in un promemoria operativo, potremmo dire così: gli LLM sono diventati una questione di architetture, non solo di parametri. La top-10 pubblicata da AIM fotografa un mercato dove la leadership non è più sinonimo di un solo vendor e in cui la coerenza tra chip, rete, software e cloud decide la resa più dei picchi di potenza in laboratorio. Per chi costruisce prodotti, la domanda utile non è “qual è il chip più potente?”, ma “qual è il chip più giusto per il mio carico, la mia latenza obiettivo e il mio budget energetico?”. A questa, finalmente, non c’è più una sola risposta.