Mentre l’entusiasmo e l’interesse attorno all’IA generativa continuano a crescere, si stanno registrando anche importanti progressi nelle prestazioni dei sistemi di apprendimento automatico (ML) che li rendono possibili.
Oggi, MLCommons ha annunciato i risultati dell’ultima serie di test del benchmark MLPerf Training 3.0. Questo benchmark mira a fornire misurazioni standard di settore sulle prestazioni di addestramento dei modelli di machine learning. MLCommons è un consorzio aperto di ingegneria che si concentra sui benchmark, sui set di dati e sulle migliori pratiche di machine learning per accelerare lo sviluppo dell’IA. Il gruppo ha già pubblicato diversi benchmark per il machine learning, tra cui MLPerf Inference, che è stato aggiornato per l’ultima volta ad aprile. I risultati di MLPerf Training 2.1 sono stati pubblicati nel novembre 2022.
La novità principale di MLPerf Training 3.0 è l’introduzione di test per l’addestramento di modelli linguistici di grandi dimensioni (LLM), in particolare basati su GPT-3. L’inclusione di LLM nel benchmark arriva in un momento critico in cui le organizzazioni stanno sviluppando tecnologie di intelligenza artificiale generativa.
Complessivamente, l’ultimo round di test di addestramento include oltre 250 risultati di prestazioni diversi da 16 fornitori, tra cui ASUSTek, Microsoft Azure, Dell, Fujitsu, GIGABYTE, H3C, IEI, Intel e Habana Labs, Krai, Lenovo, Nvidia, CoreWeave + Nvidia, Quanta Cloud Technology, Supermicro e xFusion.
Fondamentalmente, i risultati del benchmark MLPerf Training 3.0 mostrano un notevole aumento delle prestazioni in tutti i risultati, dimostrando come le capacità di machine learning stiano superando la legge di Moore.
“Come settore, la legge di Moore è ciò che ci spinge avanti; è il barometro con cui molte persone sono abituate a valutare i progressi nell’elettronica”, ha dichiarato David Kanter, direttore esecutivo di MLCommons, durante una conferenza stampa. “I guadagni in termini di prestazioni che abbiamo visto dal 2018 sono incredibili, nell’ordine di 30-50 volte, il che è circa 10 volte più veloce della legge di Moore”.
Analizzando specificamente i dati di MLPerf Training dell’ultimo anno, Kanter ha affermato che tutti i risultati hanno mostrato guadagni che variano dal 5% al 54%.
Ci sono diversi fattori che contribuiscono a rendere l’addestramento del machine learning sempre più veloce e a un ritmo che supera la legge di Moore.
Uno dei principali fattori è l’utilizzo di silicio migliorato, su cui i fornitori del settore, come Nvidia e Intel, hanno fatto progressi significativi. Kanter ha osservato che quando i test di MLPerf sono stati avviati, il silicio più avanzato utilizzava un processo a 16 nanometri. Oggi, invece, il processo più avanzato è a 5 nanometri, offrendo una maggiore densità e prestazioni notevoli.
Oltre all’hardware, ci sono anche gli algoritmi e il software. I fornitori e i ricercatori stanno costantemente sviluppando nuovi metodi ed efficienti per eseguire le operazioni di machine learning. Inoltre, sono stati fatti miglioramenti generali nella catena degli strumenti di sviluppo, compresi i compilatori di codice. Inoltre, si sta lavorando sulla scalabilità dei sistemi, costruendo soluzioni più ampie con una maggiore larghezza di banda di comunicazione.
Negli ultimi anni, Nvidia ha sviluppato la connettività InfiniBand per supportare la comunicazione ad alta velocità. Intel, d’altra parte, ha lavorato per migliorare Ethernet al fine di supportare prestazioni più elevate per le operazioni di machine learning.
“Abbiamo dimostrato che con i processori Xeon di Intel è possibile ottenere una scalabilità dal 97% al 100% con una rete Ethernet standard ottimizzata”, ha affermato Jordan Plawner, senior director dei prodotti AI di Intel, durante la conferenza stampa di MLCommons.
L’inclusione di un benchmark specifico per l’addestramento di modelli linguistici di grandi dimensioni come GPT-3 non è stata un’impresa facile per MLCommons. GPT-3 è un modello con 175 miliardi di parametri, mentre il modello di elaborazione del linguaggio naturale (NLP) BERT è molto più piccolo, con 340 milioni di parametri.
“Questo è di gran lunga il benchmark più impegnativo dal punto di vista computazionale”, ha affermato Kanter.
Anche per Nvidia, il benchmark per i modelli linguistici di grandi dimensioni ha richiesto un notevole sforzo per essere valutato. Durante un briefing, Dave Salvator, direttore del benchmarking AI e cloud di Nvidia, ha spiegato che l’azienda ha presentato una presentazione congiunta insieme al fornitore di piattaforme cloud CoreWeave per il benchmark. Nella valutazione sono state utilizzate 3.484 GPU in diversi test di MLPerf Training 3.0.
Salvator ha sottolineato che CoreWeave ha annunciato la disponibilità generale delle sue enormi istanze di GPU all’evento Nvidia GTC di marzo. Ha aggiunto che CoreWeave è stato il primo a rendere le loro istanze HGX H100 generalmente disponibili.
Attraverso questa collaborazione, sono stati stabiliti o superati record su ogni carico di lavoro”, ha affermato Salvator. “Un altro aspetto interessante è che queste istanze sono istanze commercialmente disponibili nel mondo reale”.
Le stesse istanze CoreWeave HGX H100 utilizzate per i test di MLPerf vengono utilizzate anche dalla startup Inflection AI, che ha sviluppato la propria intelligenza artificiale chiamata Pi. Salvator ha notato che Inflection AI ha anche fornito assistenza a Nvidia e CoreWeave nell’ottimizzazione delle istanze di GPU.
“I risultati dei test ottenuti da MLPerf non sono ottenuti in un ambiente di laboratorio sterile, ma in un ambiente reale e commerciale”, ha affermato Salvator. “Abbiamo un cliente come Inflection AI che sta lavorando su un LLM all’avanguardia e utilizza le stesse istanze, ottenendo ottimi risultati”.