Google descrive in dettaglio i nuovi chip acceleratori AI
Al Google I / O 2021, Google ha annunciato oggi formalmente le sue unità di elaborazione tensoriale (TPU) di quarta generazione , che secondo la società possono completare carichi di lavoro di formazione di intelligenza artificiale e apprendimento automatico in un tempo quasi record. Google afferma che i cluster di TPUv4 possono superare le capacità delle TPU di generazione precedente sui carichi di lavoro tra cui rilevamento di oggetti, classificazione delle immagini, elaborazione del linguaggio naturale, traduzione automatica e benchmark di raccomandazione.
I chip TPUv4 offrono più del doppio dei TFLOP con moltiplicazione della matrice di un TPU di terza generazione (TPUv3), dove un singolo TFLOP equivale a 1 trilione di operazioni in virgola mobile al secondo. (Le matrici vengono spesso utilizzate per rappresentare i dati che alimentano i modelli di intelligenza artificiale.) Offre inoltre un aumento “significativo” della larghezza di banda della memoria, beneficiando al contempo di progressi non specificati nella tecnologia di interconnessione. Google afferma che nel complesso, a una scala identica di 64 chip e non tenendo conto del miglioramento attribuibile al software, il TPUv4 mostra un miglioramento medio di 2,7 volte rispetto alle prestazioni di TPUv3.
Di Google TPU sono circuiti integrati specifici dell’applicazione (ASIC) sviluppati specificamente per accelerare l’IA. Sono raffreddati a liquido e progettati per essere inseriti nei rack dei server; fornire fino a 100 petaflop di calcolo; e potenzia i prodotti Google come Ricerca Google, Google Foto, Google Traduttore, Google Assistant, Gmail e le API AI di Google Cloud. Google ha annunciato la terza generazione nel 2018 alla sua conferenza annuale per gli sviluppatori I / O e questa mattina ha eliminato il successore, che è nelle fasi di ricerca.
Prestazioni all’avanguardia
Secondo Google, i cluster TPUv4 – o “pod” – ammontano a 4.096 chip interconnessi con una larghezza di banda 10 volte superiore a quella della maggior parte delle altre tecnologie di rete. Ciò consente a un pod TPUv4 di fornire più di un exaflop di elaborazione, che equivale a circa 10 milioni di processori per laptop medi al massimo delle prestazioni
“Questa è una pietra miliare storica per noi: in precedenza per ottenere un exaflop, era necessario costruire un supercomputer personalizzato”, ha dichiarato il CEO di Google Sundar Pichai durante un discorso programmatico. “Ma abbiamo già molti di questi implementati oggi e presto avremo dozzine di TPUv4 quattro pod nei nostri data center, molti dei quali funzioneranno al 90% o quasi di energia senza emissioni di carbonio”.
Risultati MLPerf di quest’anno suggeriscono che di quarta generazione di Google non sono niente da ridere. In un’attività di classificazione delle immagini che prevedeva l’addestramento di un algoritmo (ResNet-50 v1.5) con una precisione di almeno il 75,90% con il set di dati ImageNet, 256 TPU di quarta generazione sono state completate in 1,82 minuti. È quasi veloce quanto 768 schede grafiche Nvidia A100 combinate con 192 core CPU AMD Epyc 7742 (1,06 minuti) e 512 chip Ascend910 ottimizzati per AI di Huawei abbinati a 128 core Intel Xeon Platinum 8168 (1,56 minuti). I TPUv3 hanno avuto il battito di quarta generazione a 0,48 minuti di allenamento, ma forse solo perché 4.096 TPUv3 sono stati utilizzati in tandem.
Anche le TPU di quarta generazione hanno ottenuto buoni risultati quando sono state incaricate di addestrare un modello BERT su un ampio corpus di Wikipedia. L’addestramento ha richiesto 1,82 minuti con 256 TPU di quarta generazione, solo leggermente più lento degli 0,39 minuti con 4.096 TPU di terza generazione. Nel frattempo, raggiungere un tempo di formazione di 0,81 minuti con l’hardware Nvidia ha richiesto 2.048 schede A100 e 512 core CPU AMD Epyc 7742.
Google afferma che i pod TPUv4 saranno disponibili per i clienti cloud a partire dalla fine dell’anno.