Immagine AI

Nel mondo delle tecnologie emergenti, vivere “dietro” a un competitor significa stare costantemente sotto pressione: spingere l’hardware, rinnovare software, convincere utenti e investitori che la propria visione non è secondaria, ma può essere protagonista. È in questo clima competitivo che AMD sta cercando di trasformare una rincorsa in accelerazione, proponendo una strategia GPU che comincia a dare segnali concreti di successo.

Per molti anni, NVIDIA è stata riconosciuta come il dominatore incontrastato del mercato delle GPU per l’intelligenza artificiale, grazie al suo ecosistema maturo e alla base d’utenza consolidata. Eppure in ambienti industriali e di ricerca AMD non ha mai smesso di preparare il proprio piano: una roadmap aggressiva, l’adozione dei processi più avanzati, un rilancio del proprio stack software e grandi accordi con hyperscaler. Ora, secondo chi ha seguito da vicino gli sviluppi, la strategia sembra pagare.

Uno dei turning point più recenti è il contratto annunciato con OpenAI: AMD è destinata a fornire fino a 6 gigawatt di capacità di calcolo, potenzialmente includendo le sue GPU. Quello che prima poteva suonare come un annuncio ambizioso, oggi appare come una pietra miliare: un produttore che si impegna su numeri così alti davanti al gigante dell’IA.

Non è tuttavia l’unica palla che AMD ha messo in gioco. Un altro accordo importante è quello con Oracle, che prevede il dispiegamento di 50.000 GPU MI450 a partire dal terzo trimestre del 2026 e con estensioni previste per il 2027 e oltre. Questo tipo di impegni a lungo termine sono indicatori forti: non si tratta di un’operazione isolata, ma di una scommessa sul domani che AMD corteggia apertamente.

Parallelamente, l’azienda ha presentato “Helios”, una soluzione rack-scale che aggrega 72 GPU MI450: un segnale di come AMD stia preparando infrastrutture module per ambienti datacenter di nuova generazione. Ed è significativo che questa prospettiva si costruisca attorno al nodo tecnologico più avanzato: le GPU MI450 saranno prodotte con processi a 2 nanometri, sfidando in trasparenza anche i piani annunciati da NVIDIA.

Quando si guarda agli aspetti tecnici, però, il confronto con il passato diventa inevitabile. Le GPU attuali di AMD, come la serie MI355X, vantano una memoria maggiore, e in alcuni casi dichiarano prestazioni superiori rispetto alla rivale Blackwell B200 di NVIDIA. Inoltre, uno dei punti chiave è il costo: AMD promette un rapporto costo/prestazioni aggressivo, che può ribaltare l’equilibrio del mercato, almeno sulla carta.

Se l’hardware stava diventando credibile, per AMD il vero tallone d’Achille è sempre stato il software — ovvero, l’insieme di tool, driver, librerie e compatibilità con i framework di ricerca e produzione. Il dominio di NVIDIA in gran parte si regge sul suo ecosistema CUDA: ben documentato, ricco di supporto, consolidato in anni di uso intensivo. Gli sviluppatori che utilizzano CUDA hanno percorso una curva di apprendimento ben conosciuta, sanno come evitare molti errori e come ottimizzare in produzione, con minori sorprese.

Nel passato, ROCm, la piattaforma open source di AMD, è stata spesso criticata per problemi di usabilità out-of-the-box: bug frequenti, difficoltà di configurazione, prestazioni impreviste in certi casi. Queste lacune hanno danneggiato la percezione del brand, facendo sembrare l’hardware molto promettente “inaffidabile” in scenari reali. Le aziende più robuste potevano investire in tuning personalizzato, ma per startup o laboratori con risorse ridotte, il costo aggiuntivo era proibitivo.

Ma oggi AMD sembra aver capito che l’hardware senza software all’altezza è come una macchina potente senza freni: bella da vedere, pericolosa da usare. Con ROCm 7, la casa ha introdotto miglioramenti significativi: una maggiore efficienza nell’inferenza (fino a 3,5× rispetto alle versioni precedenti) e una accelerazione triplicata nelle operazioni di training sulla serie MI300. Tra le novità, il supporto distribuito integrato per framework come vLLM, llm-d e SGLang, che permette di scalare su più nodi con funzionalità come prefill, decode e disaggregation.

Un aspetto che merita attenzione è la memoria elevata per singola GPU: AMD afferma che con ~288 GB di HBM (High Bandwidth Memory) è possibile addirittura eseguire o fare fine tuning su modelli giganteschi — ad esempio, un Llama da 405 miliardi di parametri. Se vero, è un salto notevole che riduce la necessità di cluster di GPU affiancate.

Ma il miglioramento software non si limita alle prestazioni grezze. AMD ha introdotto un resource manager, un sistema per gestire workload, ecosistemi di sviluppo, pipeline MLOps. Ha reso ROCm 7 compatibile anche con Windows, facilitando l’ingresso di sviluppatori che non lavorano solo in ambienti Linux. E, forse più importante, ha rivisto il processo di sviluppo: ogni commit è testato con pipeline CI/CD su tutti i livelli, da librerie core a framework e soluzioni di deployment, adottando una filosofia “trunk shippable” che mira a offrire versioni sempre stabili e consegnabili.

Già da subito, alcuni osservatori e gruppi di ricerca stanno rilevando che la frequenza di bug gravi su ROCm è drasticamente diminuite. SemiAnalysis, in passato critico verso le piattaforme AMD, ha riconosciuto che oggi il software appare “completamente diverso” rispetto all’anno scorso. In benchmark indipendenti, l’MI300X in esecuzione con vLLM offre prestazioni per costo solo del 5 – 10 % inferiori rispetto alla GPU H100 di NVIDIA, per certi carichi. Su modelli quantizzati, MI355 dimostra di poter competere con la B200.

Ciò che rende affascinante questa fase è che non si tratta solo di chip più veloci o memoria più ampia: è una sfida architettonica e culturale. AMD non sta solo tentando di recuperare spazio: mira a ridefinire il rapporto costo/prestazioni e a spingere sulle scelte open, sulla flessibilità e sul supporto software. La promessa che GPU competitive possano crescere anche al di fuori dell’ecosistema “chiuso” di NVIDIA è una sfida che, se vinta, cambierebbe le dinamiche dell’AI.

Di Fantasy