Il Mixture-of-Experts (MoE) si è affermato come una tecnica per espandere modelli linguistici senza aumentare eccessivamente i costi computazionali. Al contrario di utilizzare tutti i parametri per ogni input, le architetture MoE indirizzano i dati verso piccoli “esperti” specializzati, mantenendo bassi i costi di inferenza. Questo approccio è adottato in vari modelli LLM come Mixtral, DBRX, Grok e potenzialmente anche GPT-4.
Tuttavia, le attuali tecniche MoE hanno limitazioni legate al numero limitato di esperti che possono gestire efficacemente. Per superare questa sfida, Google DeepMind ha introdotto Parameter Efficient Expert Retrieval (PEER), un’architettura che permette di scalare i modelli MoE fino a milioni di esperti. Questo migliora significativamente il bilanciamento tra prestazioni e requisiti computazionali nei grandi modelli linguistici.
Negli ultimi anni, aumentare il numero di parametri nei modelli linguistici ha portato a miglioramenti nelle prestazioni e nuove capacità. Tuttavia, ci sono limiti dovuti a restrizioni computazionali e di memoria.
Ogni blocco trasformatore nei modelli LLM include livelli di attenzione e feedforward (FFW). Gli FFW rappresentano una parte significativa dei parametri del modello e possono diventare un collo di bottiglia nel ridimensionamento dei trasformatori. Nelle architetture tradizionali, tutti i parametri FFW sono attivi durante l’inferenza, aumentando proporzionalmente la loro impronta computazionale.
Il MoE affronta questa sfida sostituendo gli strati FFW con esperti specializzati, ciascuno con una frazione dei parametri complessivi. Un router nel MoE assegna ogni input agli esperti più adatti per fornire la risposta più accurata.
Aumentando il numero di esperti, è possibile aumentare la capacità del modello senza incrementare significativamente i costi computazionali. Studi recenti hanno evidenziato che il numero ottimale di esperti dipende da variabili come il numero di token di addestramento e il budget computazionale, con i MoE che spesso superano i modelli densi in termini di efficienza computazionale.
PEER, sviluppato da DeepMind, introduce un nuovo approccio sostituendo il tradizionale router fisso con un indice appreso. Questo indice guida l’input verso un vasto pool di esperti, selezionando quelli più adatti in base a un calcolo iniziale. PEER utilizza esperti più piccoli condividendo neuroni tra di loro per migliorare l’efficienza dei parametri e il trasferimento di conoscenze.
Questo approccio non solo migliora le prestazioni rispetto alle architetture MoE tradizionali, ma dimostra anche un compromesso migliore tra prestazioni e risorse computazionali. Gli esperimenti mostrano che i modelli PEER raggiungono punteggi di perplessità inferiori con lo stesso budget computazionale, suggerendo un potenziale significativo per il miglioramento delle tecnologie linguistiche su larga scala.
PEER rappresenta un passo avanti nell’evoluzione dei modelli MoE, sfidando il concetto consolidato che limita il numero di esperti per garantire efficienza. Questo avanzamento potrebbe ridurre ulteriormente i costi di formazione e gestione dei modelli LLM, rendendo possibile l’espansione delle loro capacità in nuovi scenari di utilizzo.
Questi sviluppi indicano un futuro promettente per l’uso di MoE ad alta granularità nei modelli linguistici, portando benefici tangibili nella gestione di dati dinamici e complessi.