Una nuova ricerca ha rivelato che Nvidia non è l’unico attore nel campo della produzione di acceleratori per l’intelligenza artificiale destinati all’addestramento e all’inferenza. Intel è un concorrente aggressivo in questo settore e ha dimostrato eccellenza attraverso la sua tecnologia Intel Gaudi 2.
I risultati di una recente ricerca condotta da Databricks, pubblicata oggi, hanno svelato che Intel Gaudi 2 rappresenta una solida alternativa in termini di prestazioni rispetto ai principali acceleratori AI di Nvidia. Secondo quanto emerso dalla ricerca di Databricks, nell’ambito dell’inferenza di modelli linguistici di grandi dimensioni (LLM), Gaudi 2 ha raggiunto livelli di latenza comparabili a quelli dei sistemi Nvidia H100 nella decodifica e ha superato Nvidia A100. Inoltre, Gaudi 2 ha dimostrato di sfruttare meglio la larghezza di banda della memoria rispetto ad H100 e A100.
Tuttavia, Nvidia continua a dominare nel settore dell’addestramento ad alte prestazioni sui suoi acceleratori di fascia alta. Utilizzando la piattaforma LLM di Databricks denominata MosaicML per l’addestramento, i ricercatori hanno scoperto che Gaudi 2 ha raggiunto la seconda velocità di addestramento LLM a nodo singolo più veloce al mondo, superando i 260 TFLOPS per chip. Complessivamente, secondo la ricerca di Databricks, in base ai costi dei servizi cloud pubblici, Gaudi 2 offre il miglior rapporto costo-prestazioni sia per l’addestramento che per l’inferenza rispetto ad A100 e H100.
Va notato che Intel ha fornito i propri risultati dei test su Gaudi 2 attraverso il benchmark MLcommons MLperf, sia per l’addestramento che per l’inferenza, ottenendo conferma indipendente delle prestazioni della tecnologia Gaudi da parte di terze parti.
Abhinav Venigalla, capo architetto NLP presso Databricks, ha commentato: “Siamo rimasti impressionati dalle prestazioni di Gaudi 2, in particolare dall’alto grado di utilizzo raggiunto nell’inferenza LLM. Prevediamo ulteriori miglioramenti delle prestazioni grazie al supporto FP8 di Gaudi 2, disponibile nell’ultima versione del software. A causa dei limiti di tempo, siamo stati in grado di valutare le prestazioni solo utilizzando BF16.”
I risultati di prestazione riportati da Databricks non sorprendono Intel. Eitan Medina, COO di Habana Labs, una società di Intel, ha dichiarato che i dati sono coerenti con quanto misurato da Intel e con le risposte positive ricevute dai clienti.
Intel ha acquisito la startup specializzata in chip per l’IA, Habana Labs, insieme alla sua tecnologia Gaudi, nel 2019, investendo 2 miliardi di dollari. Da allora, l’azienda ha continuato a migliorare costantemente la tecnologia.
Una delle vie per dimostrare le prestazioni è attraverso i benchmark standard del settore. Sia Nvidia che Intel partecipano regolarmente ai benchmark MLcommons MLPerf, sia per l’addestramento che per l’inferenza, che vengono aggiornati periodicamente. Negli ultimi benchmark di addestramento MLPerf 3.1 rilasciati a novembre, sia Nvidia che Intel hanno stabilito nuovi record di velocità di addestramento LLM. Anche i benchmark di inferenza MLPerf 3.1, pubblicati diversi mesi prima a settembre, hanno dimostrato solide performance competitive sia per Nvidia che per Intel.
Nonostante l’importanza dei benchmark come MLPerf e il rapporto di Databricks, Medina ha sottolineato che molti clienti si affidano ai loro test personali per verificare che lo stack hardware e software soddisfi le specifiche esigenze dei loro modelli e casi d’uso.
“La maturità dello stack software è incredibilmente importante, poiché molte persone sono scettiche riguardo alle organizzazioni di benchmarking in cui i fornitori ottimizzano al massimo per adattarsi a un benchmark specifico”, ha affermato Medina.
Intel si sta preparando a lanciare il suo acceleratore AI Gaudi 3 nel 2024. Mentre Gaudi 2 è stato sviluppato con un processo a 7 nanometri, Gaudi 3 utilizzerà un processo a 5 nanometri e offrirà quattro volte la potenza di elaborazione e il doppio della larghezza di banda di rete. Medina ha dichiarato che Gaudi 3 sarà lanciato e prodotto in serie nel 2024, promettendo un notevole miglioramento delle prestazioni per dollaro e per watt.
Guardando al futuro, Intel sta lavorando sulle generazioni successive che uniranno la tecnologia HPC (High Performance Computing) e l’acceleratore AI dell’azienda. Intel riconosce ancora il valore delle sue tecnologie CPU anche per i carichi di lavoro di inferenza AI e ha recentemente annunciato i suoi processori Xeon di quinta generazione con accelerazione AI.
“Le CPU continuano a svolgere un ruolo significativo nell’inferenza, e la messa a punto può essere vantaggiosa anche per le CPU”, ha sottolineato Medina. “Le CPU sono coinvolte nella preparazione dei dati e vengono spesso utilizzate insieme all’acceleratore Gaudi per carichi di lavoro in cui la densità di calcolo per l’intelligenza artificiale è fondamentale. La nostra strategia generale è offrire una vasta gamma di soluzioni per soddisfare le diverse esigenze.”