La scorsa settimana, abbiamo assistito alla crescita di diversi modelli “Mixture of Experts” (MoE), come Databricks DBRX, Jamba di AI21 Labs, Grok-1 di xAI e Qwen 1.5 di Alibaba. Questi modelli, tra cui Mixtral 8X 7B già presente, stanno diventando sempre più popolari.
Un modello MoE è una tipologia di architettura di rete neurale che sfrutta i punti di forza di diversi modelli più piccoli, chiamati “esperti”, per fare previsioni o generare risultati. È come un team di specialisti ospedalieri, ognuno esperto in un settore specifico della medicina.
Rispetto ai modelli Transformer, i MoE hanno due componenti chiave: gli strati MoE sparsi e la rete di gate.
Gli strati MoE sparsi rappresentano vari “esperti” all’interno del modello, ciascuno specializzato in compiti specifici. La rete di gate funge da “manager”, determinando quale esperto gestisce quali parole o token.
I MoE sostituiscono gli strati feed-forward con strati MoE sparsi, che contengono diversi esperti (ad esempio 8), ciascuno con una propria rete neurale.
Databricks DBRX utilizza un’architettura MoE a grana fine con 132B di parametri totali, di cui 36B attivi su qualsiasi input. Questo modello si distingue dagli altri per l’approccio a grana fine.
Grok 1 di xAI, recentemente reso open source, è un modello MoE con 314B di parametri, di cui solo il 25% è attivo su un dato token.
Jamba di AI21 Labs è un’architettura ibrida che combina i livelli Transformer con i livelli Mamba e un modulo MoE. Jamba applica MoE a ogni altro livello, con 16 esperti che utilizzano i primi 2 esperti per ciascun token.
Alibaba ha rilasciato Qwen1.5-MoE, un modello con 14 miliardi di parametri, utilizzando un’architettura MoE a grana fine simile a DBRX.
Mixtral 8X7B è una rete sparsa di esperti, con parametri 47B utilizzando solo 13B durante l’inferenza.
L’adozione dei modelli MoE è in crescita poiché consentono il pre-addestramento dei modelli con meno calcolo, permettendo di aumentare le dimensioni del modello o del set di dati con lo stesso budget di calcolo di un modello denso. Sebbene l’inferenza sia più veloce rispetto a un modello denso, ci sono compromessi in termini di requisiti di memoria. Tuttavia, con la crescente necessità di modelli linguistici più ampi, si prevede che l’adozione delle tecniche MoE aumenterà in futuro.