MLCommons sta espandendo la sua suite di benchmark AI MLPerf con l’introduzione di nuovi test per i modelli linguistici di grandi dimensioni (LLM) nell’inferenza, oltre a un nuovo benchmark che valuta le prestazioni dei sistemi di storage per i carichi di lavoro di machine learning (ML).
MLCommons è un’organizzazione multi-stakeholder che si impegna a garantire parità di condizioni per consentire ai fornitori di riportare risultati sulle diverse prestazioni dell’intelligenza artificiale attraverso la serie di benchmark MLPerf. Gli ultimi risultati rilasciati oggi, denominati MLPerf Inference 3.1, rappresentano il secondo importante aggiornamento dei risultati di quest’anno, seguendo il rilascio dei risultati 3.0 ad aprile. Questi nuovi benchmark MLPerf 3.1 includono un vasto set di dati con oltre 13.500 risultati di prestazioni.
Un tema comune nei benchmark MLPerf è il costante miglioramento delle prestazioni da parte dei fornitori, e i risultati di MLPerf 3.1 Inference seguono questa tendenza. Molti presentatori, come dichiarato da David Kanter, il fondatore e direttore esecutivo di MLCommons, hanno registrato miglioramenti delle loro prestazioni del 20% o più rispetto al benchmark 3.0.
Oltre ai miglioramenti continui delle prestazioni, MLPerf continua a crescere con l’introduzione dei benchmark di inferenza 3.1.
Kanter ha affermato: “Stiamo evolvendo la nostra suite di benchmark per rispecchiare l’evoluzione del settore. Il nostro benchmark LLM è completamente nuovo in questa fase e riflette la crescente importanza dei modelli linguistici generativi nell’intelligenza artificiale.”
Non è la prima volta che MLCommons si impegna a valutare le prestazioni dei modelli linguistici di grandi dimensioni. A giugno, i benchmark di formazione MLPerf 3.0 hanno introdotto per la prima volta i LLM. Tuttavia, va notato che la formazione dei LLM è un compito notevolmente diverso rispetto all’esecuzione delle operazioni di inferenza. Kanter ha evidenziato questa differenza, affermando che durante l’inferenza, il LLM svolge un compito generativo scrivendo molte frasi.
Il benchmark MLPerf Training per LLM utilizza il modello di parametri GPT-J 6B (miliardi) per eseguire il riepilogo del testo sul set di dati CNN/Daily Mail. Kanter ha sottolineato che mentre il benchmark di formazione MLPerf si concentra su modelli di base molto ampi, il benchmark di inferenza di MLPerf rappresenta un insieme più diversificato di casi d’uso adatto a un’ampia gamma di organizzazioni.
Kanter ha spiegato: “Molte organizzazioni non dispongono delle risorse computazionali o dei dati necessari per supportare un modello di dimensioni estreme. L’attività effettiva che stiamo misurando con il nostro benchmark di inferenza è il riepilogo del testo.”
Sebbene le GPU di fascia alta spesso dominino le classifiche di MLPerf per la formazione e l’inferenza, non tutte le organizzazioni cercano necessariamente soluzioni di tale portata, almeno secondo Intel.
MLPerf Inference 3.1 presenta una presenza significativa dei prodotti Intel, inclusi gli acceleratori Habana Gaudi, i processori scalabili Intel Xeon di quarta generazione e i processori Intel Xeon CPU Max Series. Secondo Intel, il processore Intel Xeon Scalable di quarta generazione ha dimostrato buone prestazioni nel riepilogo delle notizie GPT-J, con la capacità di riepilogare un paragrafo al secondo in modalità server in tempo reale.
Rispondendo a una domanda posta durante la conferenza stampa di MLCommons, Jordan Plawner, direttore senior dei prodotti AI di Intel, ha sottolineato che esiste una diversità di esigenze tra le organizzazioni quando si tratta di inferenza.
“Le imprese, aziende e organizzazioni devono implementare l’intelligenza artificiale nella produzione, e ciò richiede un’ampia gamma di soluzioni hardware e software”, ha affermato Plawner. “L’ampia rappresentanza sia delle soluzioni hardware che software che dimostrano l’efficacia dell’inferenza in vari contesti è un indicatore importante della direzione in cui si sta sviluppando il mercato, che sta ampliando il suo focus oltre la creazione di modelli, considerando anche l’implementazione pratica.”
Mentre Intel sottolinea l’importanza delle CPU per l’inferenza, le GPU di Nvidia sono anche ben presenti nei benchmark MLPerf Inference 3.1. Questi benchmark segnano l’introduzione del superchip Grace Hopper GH200 di Nvidia, che combina una CPU Nvidia e una GPU per massimizzare le prestazioni nei carichi di lavoro di intelligenza artificiale.
Dave Salvator, direttore dell’intelligenza artificiale di Nvidia, ha dichiarato: “Grace Hopper ha fatto un ottimo debutto, offrendo prestazioni superiori fino al 17% rispetto alle nostre migliori proposte GPU H100, confermandosi leader in tutti i settori. Le GPU Nvidia L4 sono state anch’esse elogiate da Salvator per le prestazioni ottenute in MLPerf Inference 3.1, con performance fino a 6 volte superiori rispetto alle migliori CPU x86 presenti in questa fase della competizione.”