L’Università di Tsinghua presenta la tecnica Attention Offloading per ottimizzare l’inferenza degli LLM
Un nuovo studio dell’Università di Tsinghua ha rivelato che una riorganizzazione dell’hardware e dei calcoli può notevolmente abbassare i costi dell’inferenza per i modelli linguistici di grandi dimensioni (LLM). La…