Groq ha recentemente introdotto una nuova funzionalità sul suo sito web che permette di eseguire query estremamente veloci e altre operazioni con i principali modelli linguistici di grandi dimensioni (LLM). Questa novità è stata implementata silenziosamente la scorsa settimana e ha dimostrato risultati notevolmente più rapidi e intelligenti rispetto alle precedenti capacità dell’azienda.
Groq è stato in grado di gestire circa 1256,54 token al secondo, una velocità quasi istantanea e superiore ai 800 token al secondo mostrati in aprile. Questo livello di prestazioni è attribuito alla loro unità di elaborazione del linguaggio (LPU), che Groq sostiene essere molto più efficiente delle GPU per compiti di inferenza, grazie al suo funzionamento lineare.
Il motore del sito di Groq utilizza di default il modello LLM open source Llama3-8b-8192 di Meta, ma offre anche la possibilità di scegliere tra altri modelli più grandi come Llama3-70b, Gemma (Google) e Mistral, con supporto previsto per ulteriori modelli in futuro.
L’azienda ha attirato l’attenzione per la sua promessa di eseguire compiti di intelligenza artificiale più velocemente e a costi inferiori rispetto ai concorrenti, focalizzandosi sulla distribuzione efficace dei carichi di lavoro LLM. Questo ha già attratto oltre 282.000 sviluppatori, secondo quanto dichiarato dal CEO Jonathan Ross a VentureBeat.
Groq offre anche una console per gli sviluppatori per creare e implementare le proprie applicazioni, semplificando lo scambio di app con altri sviluppatori che lavorano su piattaforme come OpenAI.