Groq ha recentemente introdotto la Language Processing Unit (LPU), un nuovo tipo di sistema di unità di elaborazione end-to-end. Offre l’inferenza più rapida per applicazioni ad alta intensità di calcolo con una componente sequenziale, come i LLM.
Ha preso d’assalto Internet con la sua latenza estremamente bassa, offrendo una velocità senza precedenti di quasi 500 T/s.
Questa tecnologia mira a risolvere i limiti delle CPU e GPU tradizionali per la gestione delle intense richieste computazionali degli LLM. Promette un’inferenza più rapida e un consumo energetico inferiore rispetto alle soluzioni esistenti.
L’LPU di Groq segna un allontanamento dal modello SIMD (Single Instruction, Multiple Data) convenzionale utilizzato dalle GPU. A differenza delle GPU, progettate per l’elaborazione parallela con centinaia di core principalmente per il rendering grafico, le LPU sono progettate per fornire prestazioni deterministiche per i calcoli IA.
L’efficienza energetica è un altro vantaggio degno di nota delle LPU rispetto alle GPU. Riducendo il sovraccarico associato alla gestione di più thread ed evitando il sottoutilizzo dei core, le LPU possono fornire più calcoli per watt, posizionandosi come un’alternativa più ecologica.
LPU di Groq ha il potenziale per migliorare le prestazioni e la convenienza di varie applicazioni basate su LLM, comprese le interazioni chatbot, la generazione di contenuti personalizzati e la traduzione automatica. Potrebbero fungere da alternativa alle GPU NVIDIA, soprattutto perché A100 e H100 sono molto richiesti.
Groq è stata fondata nel 2016 dal suo capo Jonathan Ross . Inizialmente ha iniziato quello che è diventato il progetto TPU (Tensor Processing Unit) di Google come progetto al 20% e successivamente si è unito al Rapid Eval Team di Google X prima di fondare Groq.