L’Allen Institute for AI (AI2) ha presentato OLMoE, un nuovo modello open source progettato per essere sia potente che economico. OLMoE è un modello linguistico di grandi dimensioni (LLM) che utilizza un’architettura chiamata “mixture of experts” (MoE), con 7 miliardi di parametri, ma ne utilizza solo 1 miliardo per ogni token di input. Esistono due versioni del modello: OLMoE-1B-7B, per uso generico, e OLMoE-1B-7B-Instruct, ottimizzata per l’addestramento basato su istruzioni.
AI2 sottolinea che OLMoE è completamente open source, a differenza di molti altri modelli MoE che non offrono accesso completo ai dati di training o al codice. Questo approccio aperto permette ai ricercatori di accedere a risorse che normalmente sono limitate, facilitando così la creazione di modelli MoE economici e avanzati.
Nathan Lambert, ricercatore scientifico di AI2, ha spiegato che OLMoE potrebbe essere un punto di partenza per ulteriori ricerche, soprattutto quando saranno disponibili cluster accademici più potenti. Lambert ha inoltre aggiunto che AI2 continua a lavorare per migliorare la propria infrastruttura open source e offrire modelli che competono con quelli chiusi.
OLMoE utilizza 64 piccoli esperti, attivandone solo otto alla volta. Questo approccio consente al modello di funzionare bene come altri modelli simili, ma con costi di inferenza e memoria significativamente ridotti. OLMoE è stato addestrato su un ampio mix di dati, inclusi DCLM e Dolma, e supera modelli concorrenti come Llama2-13B-Chat e DeepSeekMoE-16B in molti test benchmark. Risulta particolarmente efficace nei confronti di modelli con 1 miliardo di parametri, come Pythia e TinyLlama.
AI2 punta a rendere i modelli MoE completamente open source, affrontando le sfide di progettazione associate a questi modelli, come il numero di parametri attivi e le configurazioni degli esperti. Sebbene molti modelli MoE esistenti non offrano apertura totale, AI2 crede che una maggiore trasparenza possa aiutare i ricercatori a navigare le complessità di questi modelli avanzati.