Immagine AI

Amazon Web Services (AWS) ha ufficialmente lanciato la disponibilità generale (GA) dei suoi Amazon EC2 Trn3 UltraServers, basati sul chip di quarta generazione Trainium3. Questo annuncio non rappresenta solo un aggiornamento hardware, ma segna una tappa fondamentale nella corsa all’infrastruttura di calcolo ottimizzata per l’Intelligenza Artificiale Generativa (GenAI). AWS sta consolidando la sua strategia di sviluppo di Acceleratori ASICs (Application-Specific Integrated Circuits) interni, progettati specificamente per l’addestramento e l’inferenza dei modelli di AI più grandi e complessi, offrendo performance e efficienza energetica superiori rispetto alle soluzioni general-purpose.

Il cuore dei nuovi Trn3 UltraServers è il chip Trainium3, costruito su un processo a 3 nanometri (3nm), un dettaglio che ne sottolinea l’avanguardia tecnologica. Questo chip è stato creato con l’obiettivo specifico di offrire la migliore token-economia, ovvero il costo ottimale per l’elaborazione di ogni singolo dato (token) nei modelli di AI, essenziale per applicazioni all’avanguardia come gli agenti autonomi, i sistemi di ragionamento avanzato e la generazione di video in tempo reale.

Le specifiche di Trainium3 sono impressionanti e mostrano un miglioramento netto rispetto alla generazione precedente (Trainium2). Ogni chip offre 2.52 PetaFLOPS (PFLOPs) di calcolo FP8 (Floating Point a 8 bit), il formato di precisione ormai standard per bilanciare accuratezza ed efficienza nel training moderno. La capacità di memoria HBM3e (High Bandwidth Memory) è stata incrementata di 1,5 volte raggiungendo i 144 GB per chip, con una larghezza di banda che supera i 4.9 TB/s. Questo incremento è vitale per gestire batch size più ampi e finestre di contesto estese, cruciali per i modelli multimodali e long-context.

Questi chip sono integrati nei Trn3 UltraServers, che possono scalare fino a 144 Trainium3 in un singolo sistema, offrendo una potenza totale che si aggira intorno ai 362 FP8 PFLOPs. Tali UltraServers possono poi essere combinati negli EC2 UltraClusters 3.0 per raggiungere centinaia di migliaia di chip in un unico ambiente di addestramento massivamente parallelo. AWS rivendica un aumento delle performance di calcolo fino a 4.4 volte e un’efficienza energetica (performance per watt) 4 volte superiore rispetto ai precedenti UltraServers basati su Trainium2, promettendo i migliori rapporti costo-prestazioni per l’addestramento dei modelli di frontiera.

Un aspetto cruciale dello sviluppo di Trainium3 è l’attenzione all’efficienza energetica. AWS ha migliorato l’efficienza energetica del 40% rispetto alla generazione precedente. Questo non è solo un vantaggio ecologico, ma un imperativo economico per i grandi datacenter che operano ai limiti della loro capacità di alimentazione e raffreddamento.

La performance di questi sistemi è garantita non solo dai chip, ma da un’integrazione verticale completa. Il sistema Trn3 introduce NeuronSwitch-v1, un fabric di interconnessione all-to-all che raddoppia la larghezza di banda tra i chip rispetto al passato. Questa rete ad alta velocità è fondamentale per eliminare i colli di bottiglia nella comunicazione, essenziali per l’addestramento distribuito di modelli di tipo Mixture-of-Experts (MoE) e topologie tensoriali parallele. Il tutto è supportato dal Neuron SDK di AWS, che consente agli sviluppatori di addestrare i modelli con framework popolari come PyTorch senza la necessità di modificare il codice sorgente del modello.

L’annuncio di Trainium3 è stato affiancato da un’anteprima sui piani di sviluppo per la prossima generazione, Trainium4. AWS ha rivelato che Trainium4 è in fase di progettazione per portare miglioramenti ancora più radicali in tutte le dimensioni chiave. Le proiezioni indicano un aumento di almeno 6 volte delle prestazioni di elaborazione nel formato FP4 (Floating Point a 4 bit), 3 volte la performance in FP8 e 4 volte la larghezza di banda di memoria rispetto a Trainium3.

Un elemento di grande rilievo strategico è la decisione di Trainium4 di integrare la tecnologia NVIDIA NVLink Fusion per l’interconnessione ad alta velocità. Questa mossa suggerisce una volontà da parte di AWS di garantire una maggiore interoperabilità e flessibilità. L’integrazione di Trainium4 con chip Graviton (le CPU AWS) e l’adattatore di rete Elastic Fabric Adapter (EFA), all’interno di rack standard basati su MGX, permetterà ai clienti di costruire un’infrastruttura AI a livello di rack flessibile ed economicamente vantaggiosa, capace di ospitare senza soluzione di continuità sia i server Trainium che quelli basati su GPU, consolidando la posizione di AWS come fornitore di infrastrutture AI complete e scalabili.

Di Fantasy