Gli LLM finalmente fioriscono con i petali
Questa esecuzione in stile BitTorrent di modelli di linguaggio di grandi dimensioni (LLM) consente un’inferenza molte volte più rapida rispetto all’offload su singoli sistemi, più vicina a 1 secondo per token. L’inferenza parallela può raggiungere centinaia di token al secondo.

 
Anche quando i modelli di linguaggi di grandi dimensioni come BLOOM, PaLM o GPT diventano open source, la loro messa a punto e l’inferenza sul tuo sistema è un’attività che richiede molta memoria. Ciò potrebbe impedire agli sviluppatori di eseguire questi modelli sui loro sistemi e quindi rallentare l’innovazione, lasciandola nelle mani solo dei grandi attori.

BigScience Workshop ha rilasciato Petals , che consente agli utenti di eseguire modelli linguistici con oltre 100 miliardi di parametri a casa caricando una piccola parte del modello sulla propria macchina e quindi collaborando con altre persone per eseguire altre parti di inferenza e messa a punto. 

Fare clic qui per controllare il repository su GitHub.

 
Questa esecuzione in stile BitTorrent di modelli di linguaggio di grandi dimensioni consente un’inferenza molte volte più rapida rispetto all’offload su singoli sistemi, più vicina a 1 secondo per token. L’inferenza parallela può raggiungere centinaia di token al secondo.

Lo script è creato per PyTorch abilitato per CUDA e utilizza Anaconda per l’installazione e per ora è disponibile solo per gli utenti Linux.


Menzionato nella pagina GitHub, “Petals” è una metafora per una singola persona che serve diverse parti del modello e ospita insieme l’intero modello linguistico: BLOOM, che ha 176 miliardi di parametri.


Poiché la collaborazione potrebbe essere lenta all’inizio a causa di problemi di privacy o sicurezza, il team ha deciso di assegnare “bloom points” come sistema di incentivi per le persone che donano il loro tempo GPU affinché le persone lo mettano a punto. 

DI MOHIT PANDEY da analyticsindiamag.com

Di ihal