MLCommons ha recentemente introdotto due nuovi benchmark nell’ambito del suo standard MLPerf 5.0, progettati per misurare l’efficienza e la velocità di esecuzione delle applicazioni di intelligenza artificiale (IA) su hardware e software all’avanguardia. Questi test rispondono alla crescente necessità di valutare le prestazioni dei modelli di IA, specialmente dopo il successo di applicazioni come ChatGPT.​

Il primo dei nuovi benchmark si basa sul modello Llama 3.1 405B di Meta, un’intelligenza artificiale con 405 miliardi di parametri. Questo test valuta le capacità del sistema in vari compiti, tra cui risposte a domande generali, risoluzione di problemi matematici e generazione di codice. L’obiettivo è misurare l’abilità del sistema nel gestire query su larga scala e nell’integrare informazioni provenienti da diverse fonti per fornire risposte accurate.​

Nell’ambito di questo benchmark, NVIDIA ha confrontato le prestazioni utilizzando server AI equipaggiati con i suoi ultimi chip Blackwell. Questi server, dotati di 72 GPU Blackwell, hanno mostrato un miglioramento delle prestazioni da 2,8 a 3,4 volte rispetto ai modelli precedenti, sottolineando l’efficacia dell’aggiornamento hardware. ​

Il secondo benchmark introdotto si basa sul modello Llama 2 70B Interactive e si concentra su applicazioni che richiedono bassa latenza, come chatbot interattivi e sistemi di IA basati su agenti. Questo test stabilisce criteri di prestazione rigorosi, inclusi tempi specifici per la generazione della prima risposta e per ogni token successivo, al fine di garantire un’esperienza utente fluida e reattiva.​

I risultati ottenuti hanno evidenziato l’importanza di raggiungere una velocità di generazione dei token di 2050 al secondo, con un tempo di generazione per token (TPOT) di 2050 millisecondi, per offrire un’interazione rapida e naturale con l’IA. Inoltre, per assicurare una risposta tempestiva anche sotto carico elevato, è stato stabilito che nel 99% dei casi almeno 25 token vengano generati al secondo, corrispondenti a un TPOT di 40 millisecondi. È stato anche fissato l’obiettivo che nel 99% dei casi la prima risposta venga generata entro 450 millisecondi, migliorando significativamente l’esperienza utente.​

Di Fantasy