AI2 lancia il modello open source OLMoE

DiFantasy

Set 10, 2024

L’Allen Institute for AI (AI2) ha presentato OLMoE, un nuovo modello open source progettato per essere sia potente che economico. OLMoE è un modello linguistico di grandi dimensioni (LLM) che utilizza un’architettura chiamata “mixture of experts” (MoE), con 7 miliardi di parametri, ma ne utilizza solo 1 miliardo per ogni token di input. Esistono due versioni del modello: OLMoE-1B-7B, per uso generico, e OLMoE-1B-7B-Instruct, ottimizzata per l’addestramento basato su istruzioni.

AI2 sottolinea che OLMoE è completamente open source, a differenza di molti altri modelli MoE che non offrono accesso completo ai dati di training o al codice. Questo approccio aperto permette ai ricercatori di accedere a risorse che normalmente sono limitate, facilitando così la creazione di modelli MoE economici e avanzati.

Nathan Lambert, ricercatore scientifico di AI2, ha spiegato che OLMoE potrebbe essere un punto di partenza per ulteriori ricerche, soprattutto quando saranno disponibili cluster accademici più potenti. Lambert ha inoltre aggiunto che AI2 continua a lavorare per migliorare la propria infrastruttura open source e offrire modelli che competono con quelli chiusi.

OLMoE utilizza 64 piccoli esperti, attivandone solo otto alla volta. Questo approccio consente al modello di funzionare bene come altri modelli simili, ma con costi di inferenza e memoria significativamente ridotti. OLMoE è stato addestrato su un ampio mix di dati, inclusi DCLM e Dolma, e supera modelli concorrenti come Llama2-13B-Chat e DeepSeekMoE-16B in molti test benchmark. Risulta particolarmente efficace nei confronti di modelli con 1 miliardo di parametri, come Pythia e TinyLlama.

AI2 punta a rendere i modelli MoE completamente open source, affrontando le sfide di progettazione associate a questi modelli, come il numero di parametri attivi e le configurazioni degli esperti. Sebbene molti modelli MoE esistenti non offrano apertura totale, AI2 crede che una maggiore trasparenza possa aiutare i ricercatori a navigare le complessità di questi modelli avanzati.

AI2 lancia il modello open source OLMoE

DiFantasy

Di Fantasy

Articoli correlati

La SuperIntelligenza di Meta richiede l’aiuto di terze parti

OpenAI e Jony Ive come sta andando il nuovo dispositivo hardware ChatGPT?

ServiceNow AI lancia Apriel-1.5-15B-Thinker, LMM open weights

Ultimi Post

La SuperIntelligenza di Meta richiede l’aiuto di terze parti

OpenAI e Jony Ive come sta andando il nuovo dispositivo hardware ChatGPT?

ServiceNow AI lancia Apriel-1.5-15B-Thinker, LMM open weights

Quando un chatbot perde il contatto con la realtà e lo fa perdere anche a te: la riflessione di un ex ricercatore OpenAI su ChatGPT