SqueezeBits, azienda specializzata nella compressione e ottimizzazione dell’intelligenza artificiale, ha recentemente annunciato il lancio di ‘Fits on Chips’, una soluzione innovativa progettata per semplificare e ottimizzare il processo di deployment dei modelli linguistici di grandi dimensioni (LLM). Questo strumento mira a rendere più efficiente l’implementazione degli LLM su diverse piattaforme hardware, riducendo tempi e costi associati.
‘Fits on Chips’ offre un approccio semplificato al deployment degli LLM, coprendo tutte le fasi del processo: dalla selezione del modello alla regolazione delle opzioni di deployment, fino alla configurazione dei dispositivi e dei framework, alla valutazione delle prestazioni e alla distribuzione finale. La soluzione è progettata per integrarsi facilmente con librerie open source come Hugging Face, permettendo agli utenti di combinare e valutare vari modelli LLM in modo efficiente. Secondo SqueezeBits, questo approccio può ridurre il tempo necessario per il deployment da 30 ore a circa 3 ore, con una diminuzione dei costi di oltre il 50%.
Una caratteristica distintiva di ‘Fits on Chips’ è la capacità di analizzare e confrontare diversi framework, come vLLM e TensorRT-LLM, fornendo agli utenti informazioni dettagliate per costruire un ambiente di deployment LLM ottimizzato. SqueezeBits prevede di espandere il supporto per vari modelli, hardware e ambienti server, inclusi agenti AI e hardware di aziende come AMD, Amazon e Google.
Recentemente, SqueezeBits ha collaborato con Intel e Naver per ottimizzare le operazioni degli LLM sull’hardware Gaudi di Intel, ampliando il supporto di ‘Fits on Chips’ oltre le GPU NVIDIA. Questa collaborazione riflette l’impegno dell’azienda nel fornire soluzioni flessibili e compatibili con una gamma diversificata di hardware, offrendo alle aziende la possibilità di scegliere l’infrastruttura più adatta alle loro esigenze specifiche.