Intel Habana supera Nvidia negli ultimi risultati di MLPerf

Habana di Intel ha superato Nvidia negli ultimi risultati del benchmark MLPerf, che è diventato il set di benchmark standard del settore per confrontare gli acceleratori di intelligenza artificiale. Sebbene Nvidia abbia già annunciato la sua GPU di nuova generazione, i risultati indicano che la concorrenza nell’hardware per il training di deep learning si sta intensificando.

Intel ha acquisito la startup Habana alla fine del 2019 per 2 miliardi di dollari e alla fine dell’anno scorso la sua NPU Gaudi (unità di elaborazione neurale) di prima generazione a 16 nm è entrata in funzione nel cloud AWS di Amazon , dichiarando prestazioni superiori del 40% per dollaro rispetto alle istanze basate su Nvidia. Tuttavia, dal momento che era in competizione con l’A100 a 7 nm di Nvidia, l’Habana ha raggiunto il suo valore principalmente addebitando un prezzo inferiore, non battendo Nvidia in termini di prestazioni.

 
Storie vere dal Lumen Edge: come le reti ad alte prestazioni stanno accelerando l’innovazione nei settori dell’hardware, del software e dei servizi
La situazione è cambiata a maggio quando l’Habana ha annunciato Gaudi2 su 7 nm, che aumenta di 3 volte il numero di core di elaborazione del tensore e offre fino a 96 GB di HBM2e. Habana ha affermato di aver sovraperformato l’A100, la principale GPU per data center di Nvidia di due anni fa, con un comodo margine. Il lancio è arrivato giusto in tempo per essere incluso negli ultimi risultati di MLPerf, che è il tentativo del settore di standardizzare il benchmarking del deep learning.

Risultati delle prestazioni 
L’Habana ha affermato di avere solo 10 giorni dal lancio per presentare i suoi risultati, quindi non è stata in grado di eseguire tutti gli otto test e si è concentrata solo sui due benchmark più conosciuti: ResNet-50 (riconoscimento dell’immagine) e BERT (linguaggio naturale in lavorazione). Gli invii MLPerf passano attraverso un processo di revisione tra pari di un mese.
L’Habana ha anche affermato che il poco tempo significava che non aveva ancora avuto il tempo per ottimizzazioni software approfondite. Ad esempio, Gaudi2 ha aggiunto il supporto per un nuovo formato FP8 di precisione inferiore, che non è stato utilizzato nella presentazione. Invece, Habana ha scelto di inviare risultati basati sullo stesso software disponibile per tutti i clienti Habana, mentre Nvidia presumibilmente utilizza ottimizzazioni non disponibili nel suo software disponibile per i clienti. 

Ciò significa che la differenza di prestazioni nei casi non ottimizzati è maggiore. Nei test di Habana che utilizzano repository pubblici su istanze di Azure, Habana ha misurato che Gaudi2 era almeno 2 volte più veloce sia su ResNet-50 che su BERT rispetto all’A100. Habana sostiene che questi risultati sono più rappresentativi per le prestazioni pronte all’uso che i clienti vedranno utilizzando il software disponibile al pubblico. 


Nei risultati di MLPerf, rispetto alla presentazione di Nvidia, Gaudi2 è stato in grado di addestrare ResNet-50 nel 36% in meno di tempo, il che si traduce in prestazioni superiori del 56%. Tuttavia, si può notare che i risultati MLPerf della startup di deep learning MosaicML , che utilizzava PyTorch, hanno fornito un tempo di formazione di 23,8 minuti che ha battuto la stessa presentazione di Nvidia, sebbene ancora più lento di Gaudi2. D’altra parte, ulteriori ottimizzazioni del software possono anche ridurre il tempo di Gaudi2 per l’invio futuro. 

In BERT, la vittoria è stata minore con Gaudi2 che ha impiegato il 7% in meno di tempo rispetto all’A100. Rispetto a Gaudi, Gaudi2 era rispettivamente 3x e 4,7x più veloce in ResNet-50 e BERT. I risultati per tutti gli acceleratori si basano su server a 8 schede. Habana ha inoltre mostrato i risultati per un sistema con 256 core, che offre prestazioni quasi 25 volte superiori rispetto al limite di scalabilità teorica di 32 volte, dimostrando che le prestazioni sono mantenute nelle configurazioni scale-out in cui questi chip sono spesso distribuiti. 

Qual è il prossimo
La tesi della maggior parte delle startup AI era che avrebbero potuto battere Nvidia eliminando tutte le cose della GPU e concentrandosi solo sull’hardware AI . Nonostante abbia avuto solo una manciata di giorni per presentare i risultati dal lancio ufficiale, Gaudi2 di Habana ha battuto l’A100 di Nvidia, entrambi prodotti con tecnologia di processo a 7 nm, utilizzando hardware pronto all’uso e software disponibile in commercio. Habana afferma inoltre che la differenza di prestazioni sul codice non ottimizzato, al di fuori di MLPerf, può essere superiore al doppio. Poiché è probabile che Habana prenda il suo Gaudi2 inferiore rispetto all’A100 di Nviida e ogni chip Gaudi ha anche 24 porte Ethernet 100G integrate, la differenza nel costo totale di proprietà potrebbe essere ancora maggiore, come già affermano Habana e AWS è il caso per il primo- generazione Gaudì.

Mentre Habana potrebbe aver conquistato la corona delle prestazioni in questo round, Nvidia ha già annunciato la sua prossima generazione di H100 con disponibilità entro la fine dell’anno. Inoltre, Habana non ha ancora annunciato alcuna istanza cloud per Gaudi2.

Di ihal