Il panorama dell’intelligenza artificiale (AI) sta vivendo una nuova rivoluzione grazie alla competizione tra giganti come SambaNova, Cerebras e Groq, che stanno spingendo i limiti della velocità di elaborazione dei token. Questa corsa è stata intensificata dal recente lancio di OpenAI o1, un modello avanzato che dimostra come il ragionamento non richieda necessariamente modelli di enormi dimensioni. Questo nuovo approccio riduce il carico sui sistemi di pre-addestramento, spostando l’enfasi sull’inferenza, ossia la capacità di ragionare in tempo reale con meno parametri.
SambaNova ha recentemente stabilito un record con la sua piattaforma di inferenza per il modello Llama 3.1 da 405 miliardi di parametri, raggiungendo una velocità di 132 token al secondo. Questo rappresenta un enorme passo avanti per l’azienda, che si è distinta per l’uso di chip AI personalizzati e un’architettura unica basata sul flusso di dati riconfigurabile. La sua capacità di gestire simultaneamente pipeline e parallelismi tensoriali è stata la chiave del successo, rendendo SambaNova una delle piattaforme più veloci per l’inferenza AI.
Cerebras, dal canto suo, ha lanciato il sistema CS-3, alimentato dal potente processore Wafer Scale Engine 3 (WSE-3). Questa soluzione consente un’inferenza rapidissima, con velocità che raggiungono i 1.800 token al secondo per il modello Llama 3.1 da 8 miliardi di parametri. Ciò lo rende 20 volte più veloce rispetto alle piattaforme basate su GPU NVIDIA. Il WSE-3 si distingue per la sua impressionante larghezza di banda di memoria, una caratteristica fondamentale per gestire l’IA generativa.
Groq, invece, si è distinto per l’adozione di un approccio completamente diverso, abbandonando l’uso delle GPU a favore del suo processore proprietario, la Groq LPU (Learning Processing Unit). Questo ha permesso all’azienda di raggiungere una velocità di 544 token al secondo con il modello Llama 3.1 da 70 miliardi di parametri. La LPU è progettata specificamente per eliminare i colli di bottiglia legati alla larghezza di banda della memoria, un problema che limita le performance delle GPU tradizionali.
La LPU di Groq dà priorità all’elaborazione sequenziale dei dati, il che la rende particolarmente efficiente nelle attività linguistiche, riducendo i tempi di elaborazione per ogni parola generata. Questo permette a Groq di offrire prestazioni superiori rispetto ai tradizionali processori utilizzati per l’AI, come le GPU di NVIDIA, AMD e Intel.
Questa competizione accesa tra SambaNova, Cerebras e Groq sta spingendo l’industria verso un’era in cui l’inferenza AI sarà il principale punto di riferimento per valutare le capacità delle piattaforme. La velocità di inferenza non è più solo un dettaglio tecnico, ma un fattore determinante per i futuri sviluppi dell’AI. Con aziende come OpenAI che si concentrano sempre di più sull’ottimizzazione del tempo di inferenza, il ruolo di queste tecnologie nella creazione di modelli di AI sempre più efficienti e capaci diventerà cruciale per l’innovazione del settore.