I ricercatori di Meta AI hanno introdotto MobileLLM, un nuovo tipo di modello linguistico progettato per dispositivi come smartphone, che hanno risorse limitate. Pubblicato il 27 giugno 2024, questo lavoro sfida le attuali concezioni sulle dimensioni necessarie per i modelli di intelligenza artificiale efficaci.

Il team di ricerca, composto da membri di Meta Reality Labs, PyTorch e Meta AI Research (FAIR), si è concentrato sull’ottimizzazione di modelli con meno di 1 miliardo di parametri. Questo è molto meno rispetto a giganti come GPT-4, che possono avere oltre un trilione di parametri.

MobileLLM introduce diverse innovazioni chiave:

  • Priorità alla profondità del modello rispetto alla larghezza
  • Utilizzo di condivisione dell’incorporamento e dell’attenzione per le query raggruppate
  • Nuova tecnica di condivisione immediata del peso a blocchi

Queste scelte hanno permesso a MobileLLM di superare di circa il 2,7% al 4,3% i modelli precedenti di dimensioni simili in attività di benchmark comuni. Anche se questi miglioramenti possono sembrare modesti, rappresentano un avanzamento significativo nel competitivo campo dello sviluppo di modelli linguistici.

Particolarmente sorprendente è che la versione da 350 milioni di parametri di MobileLLM ha raggiunto un’accuratezza paragonabile al modello LLaMA-2 da 7 miliardi di parametri su alcune attività di chiamata API. Questo suggerisce che, per specifiche applicazioni, modelli più piccoli potrebbero fornire funzionalità simili con meno risorse computazionali.

MobileLLM riflette un crescente interesse per modelli di intelligenza artificiale più efficienti. Mentre i modelli linguistici enormi mostrano segni di saturazione, i ricercatori stanno esplorando design più compatti e specializzati. Concentrandosi sull’efficienza e sull’implementazione su dispositivi, MobileLLM si colloca in una categoria vicina a quella dei Small Language Models (SLM), nonostante il nome “LLM”.

Nonostante MobileLLM non sia ancora disponibile pubblicamente, Meta ha reso open source il codice di pre-addestramento, incoraggiando altri ricercatori a sviluppare ulteriormente questa tecnologia. Questo sviluppo potrebbe abilitare funzionalità avanzate di intelligenza artificiale su dispositivi personali, sebbene la tempistica e le capacità precise rimangano incerte.

In definitiva, lo sviluppo di MobileLLM rappresenta un passo significativo verso l’accessibilità e la sostenibilità dell’intelligenza artificiale avanzata. Sfida l’idea che i modelli linguistici efficaci debbano essere estremamente grandi, aprendo nuove possibilità per le applicazioni di intelligenza artificiale su dispositivi personali.

Di Fantasy