Nella comunità degli sviluppatori, c’è un detto che recita: “I costi di formazione crescono con il numero di ricercatori, i costi di inferenza crescono con il numero di utenti”. Immaginiamo un futuro prossimo, quando tutte le principali tecnologie avranno i propri modelli e saranno disponibili Large Language Models (LLM) specializzati e modelli multimodali fondamentali per utilizzi specifici.
In questo scenario, il costo di addestrare un singolo modello di intelligenza artificiale può essere notevole, ma l’esecuzione dell’inferenza, ovvero l’applicazione del modello addestrato ai dati del mondo reale, diventerà relativamente economica. Tuttavia, a causa dell’ampia gamma di potenziali utenti e delle diverse applicazioni, il totale delle operazioni di inferenza alla fine supererà il totale dei cicli di addestramento. Di conseguenza, l’attenzione si sposterà dall’hardware e dal software per la formazione a quelli necessari per l’inferenza.
Molte organizzazioni attualmente preferiscono evitare l’addestramento di LLM a causa della disponibilità di modelli preaddestrati che possono essere personalizzati con modifiche ai parametri, prompt o risposte campionate. Quando si decide di addestrare un modello, solitamente questo avviene su un numero limitato di token da un corpus specifico del dominio, con costi di formazione occasionali.
Il costo più significativo per le organizzazioni si verifica durante l’inferenza, specialmente con l’aumento del numero di utenti e delle richieste. Per affrontare queste spese, le organizzazioni stanno adottando diverse strategie di ottimizzazione a livello di inferenza. Anche per casi d’uso relativamente modesti, come i chatbot per i clienti nell’industria automobilistica, i costi mensili possono variare da $ 2.000 a $ 2.500 quando si utilizza un LLM personalizzato, supponendo che solo una piccola percentuale di utenti interagisca. Con l’incremento dell’uso, i costi possono aumentare notevolmente a causa della generazione di token aggiuntivi.
AMD sta concentrando la sua strategia sull’inferenza nell’intelligenza artificiale, divergendo dal tradizionale percorso centrato sulle GPU. L’acquisizione di Mipsology, una società di software focalizzata sull’inferenza AI, dimostra l’impegno di AMD nel migliorare le capacità del software AI e nell’offrire una soluzione completa, comprese le CPU, semplificando l’implementazione dei modelli AI tramite AMD Unified AI Stack. Questo sottolinea la determinazione di AMD a emergere come uno dei principali attori nell’ambito dell’intelligenza artificiale, mettendo l’accento sulle soluzioni di inferenza basate su CPU.
Anche Intel sta enfatizzando l’inferenza nell’intelligenza artificiale, sfruttando le capacità delle sue CPU. I processori scalabili Xeon di Intel, integrati con funzionalità hardware come Intel DL Boost VNNI e Intel AMX, sono fondamentali per la strategia di inferenza AI dell’azienda. La partecipazione di Intel ai test benchmark come MLPerf Inference v3.1 dimostra prestazioni competitive nell’inferenza AI su vari modelli.
Gli acceleratori Habana Gaudi2 e i processori scalabili Intel Xeon di quarta generazione rappresentano opzioni potenti per i carichi di lavoro di IA. La piattaforma bilanciata di Intel per l’inferenza AI, caratterizzata da una cache più grande, una frequenza core più elevata e altri vantaggi, posiziona le CPU Intel come forti concorrenti in diverse applicazioni di inferenza AI. Inoltre, il contributo attivo di Intel alla comunità attraverso l’open source mette ulteriormente alla prova la percezione che le GPU siano l’unica scelta per l’inferenza nell’intelligenza artificiale.
Sebbene sia difficile controllare il comportamento degli utenti, le organizzazioni stanno cercando modi per ridurre i costi per token a livello hardware, il che può essere estremamente vantaggioso nella gestione delle spese totali.
Secondo gli esperti del settore, le CPU stanno emergendo come attori competitivi quando si tratta di inferenza. Sebbene le CPU siano state a lungo considerate più lente delle GPU nell’addestramento, presentano diversi vantaggi per l’inferenza e possono offrire prestazioni convenienti per operazioni aritmetiche rispetto alle GPU.
La distribuzione dei carichi di lavoro di addestramento rimane complessa nell’intelligenza artificiale, ma l’inferenza può essere distribuita in modo efficiente su numerose CPU a basso costo. Questo rende uno sciame di PC di base un’opzione interessante per le applicazioni che si basano sull’inferenza di machine learning.
A differenza dell’addestramento, l’inferenza spesso richiede l’elaborazione di piccoli batch o input singoli, il che richiede approcci di ottimizzazione diversi. Alcuni elementi del modello, come i pesi, rimangono costanti durante l’inferenza e possono trarre vantaggio da tecniche di pre-elaborazione come la compressione dei pesi o il folding costante.
L’inferenza presenta sfide uniche, in particolare in termini di latenza, che è fondamentale per le applicazioni orientate all’utente.
Poiché i costi di inferenza sono sempre al centro dell’attenzione, ciò avrà un impatto significativo sull’approccio allo sviluppo delle applicazioni di IA. I ricercatori apprezzano la capacità di sperimentare e iterare rapidamente, richiedendo flessibilità nei loro strumenti. D’altra parte, le applicazioni tendono a mantenere i propri modelli per periodi prolungati, utilizzando la stessa architettura fondamentale una volta soddisfatte le loro esigenze. Questa divergenza potrebbe portare a un futuro in cui gli autori dei modelli utilizzano strumenti specializzati e consegnano i risultati agli ingegneri di distribuzione per l’ottimizzazione.
In questo panorama in evoluzione, le piattaforme CPU tradizionali come x86 e ARM stanno destinando ad emergere come vincenti. L’inferenza dovrà essere perfettamente integrata nella logica aziendale convenzionale per le applicazioni degli utenti finali, rendendo difficile il funzionamento efficace dell’hardware di inferenza specializzato a causa dei problemi di latenza. Di conseguenza, ci si aspetta che le CPU incorporino un supporto di apprendimento automatico sempre più integrato, inizialmente come coprocessori e infine come istruzioni specializzate, seguendo l’evoluzione del supporto in virgola mobile nelle CPU.
Questo imminente cambiamento nel panorama dell’intelligenza artificiale ha implicazioni significative per lo sviluppo dell’hardware.
NVIDIA ha già colto questa opportunità. Per migliorare la propria offerta H100, NVIDIA sta introducendo il TensorRT-LLM, un software open source che offre il doppio delle prestazioni della GPU H100 durante l’inferenza su LLM, migliorando notevolmente la velocità e l’efficienza complessiva.
TensorRT-LLM ottimizza l’inferenza LLM in vari modi. Include versioni pronte all’uso dei più recenti LLM come Meta Llama 2, GPT-2, GPT-3, Falcon, Mosaic MPT e BLOOM. Integra anche kernel AI open source all’avanguardia per un’esecuzione LLM efficiente. Inoltre, TensorRT-LLM automatizza l’esecuzione simultanea di LLM su più GPU e server GPU tramite le interconnessioni NVLink e InfiniBand di Nvidia, eliminando la gestione manuale e introducendo il batching in-flight per migliorare l’utilizzo delle GPU.
Inoltre, è ottimizzato per il Transformer Engine dell’H100, riducendo l’utilizzo della memoria della GPU. Queste funzionalità migliorano le prestazioni di inferenza LLM, la scalabilità e l’efficienza energetica, supportando varie GPU Nvidia oltre all’H100.
Tradizionalmente, molti ricercatori di machine learning hanno considerato l’inferenza come una parte meno importante rispetto all’addestramento, ma questa prospettiva sembra essere in fase di cambiamento, poiché l’inferenza assume un ruolo sempre più centrale nella scena dell’intelligenza artificiale.