Mistral ha appena pubblicato un articolo su Mixtral of Experts, il suo nuovo modello, e già sono in arrivo nuovi modelli. Maxime Labonne, Senior Machine Learning Scientist presso JPMorgan, ha presentato Phixtral, un innovativo modello Mixture of Experts (MoE) costruito utilizzando i modelli Microsoft Phi-2.
L’approccio di Labonne combina da 2 a 4 modelli altamente ottimizzati, ciascuno dei quali contiene ben 2,8 miliardi di parametri, superando le prestazioni dei singoli esperti. L’ispirazione per lo sviluppo di Phixtral è giunta dall’architettura Mixtral di Mistral AI.
Ciò che rende Phixtral ancora più sorprendente è la sua capacità di eseguire operazioni di precisione a soli 4 bit su una GPU T4 standard.
Phixtral è disponibile in due varianti principali: phixtral-2x2_8 e phixtral-4x2_8. Il primo rappresenta il primo MoE creato con due modelli Microsoft Phi-2, prendendo spunto dall’architettura mistralai/Mixtral-8x7B-v0.1 e superando nettamente i singoli esperti.
Nel frattempo, la seconda opzione, phixtral-4x2_8, si distingue come il primo MoE ad incorporare ben quattro modelli Microsoft Phi-2, mostrando un vantaggio significativo rispetto alle capacità dei singoli esperti.
L’efficienza di Phixtral è enfatizzata dalla sua straordinaria capacità di superare ogni singolo esperto, rappresentando un notevole passo avanti nella progettazione dei modelli di intelligenza artificiale.
Nel contesto della classifica ‘Yet Another LLM Leaderboard’ (YALL), Phixtral ha dimostrato prestazioni superiori rispetto al modello di base Phi-2 e si è posizionato subito sotto Zephyr2-7B.
L’architettura sottostante di Phixtral, rappresentata da modelli come delfino-2_6-phi-2, phi-2-dpo, phi-2-sft-dpo-gpt4_en-ep1 e phi-2-coder, evidenzia il contributo collaborativo di diversi autori di modelli. Labonne sottolinea l’importanza cruciale di questi modelli nella creazione di Phixtral, evidenziandone le straordinarie capacità.