I modelli linguistici di grandi dimensioni (LLM) richiedono notevoli risorse computazionali, che spesso sono limitate a server potenti. Tuttavia, una nuova generazione di modelli compatti rende possibile l’esecuzione di questi potenti modelli linguistici direttamente sui vostri smartphone. È interessante notare che non avrai bisogno di Internet per utilizzare gli LLM sui tuoi smartphone.
Ecco sei LLM open source che possono essere addestrati e ottimizzati per essere utilizzati su smartphone.
- Gemma 2B
Gemma 2B di Google è un modello linguistico compatto che offre prestazioni impressionanti nonostante le sue dimensioni ridotte. Utilizza un meccanismo di attenzione multi-query , che aiuta a ridurre i requisiti di larghezza di banda della memoria durante l’inferenza. Ciò è particolarmente vantaggioso per gli scenari su dispositivo in cui la larghezza di banda della memoria è spesso limitata. Con soli 2 miliardi di parametri, Gemma 2B ottiene ottimi risultati sui parametri accademici per la comprensione, il ragionamento e la sicurezza del linguaggio. Ha sovraperformato i modelli aperti di dimensioni simili in 11 delle 18 attività basate su testo.
- Phi-2
Con 2,7 miliardi di parametri, Phi-2 ha dimostrato di sovraperformare modelli fino a 25 volte più grandi su determinati benchmark. Eccelle in compiti che coinvolgono il ragionamento basato sul buon senso, la comprensione del linguaggio e il ragionamento logico. Phi-2 può essere quantizzato per ridurre le larghezze di bit , come la precisione a 4 o 3 bit, riducendo significativamente la dimensione del modello a circa 1,17-1,48 GB per funzionare in modo efficiente su dispositivi mobili con memoria e risorse computazionali limitate. Uno dei punti di forza di Phi-2 è la sua capacità di eseguire ragionamenti basati sul buon senso. Il modello è stato addestrato su un ampio corpus di dati web, consentendogli di comprendere e ragionare su concetti e relazioni quotidiane.
- Falcon-RW-1B
Falcon-RW-1B fa parte della famiglia di modelli linguistici Falcon, noti per la loro efficienza e prestazioni. Il RW sta per “Refined Web”, che indica un set di dati di addestramento curato per la qualità piuttosto che per la quantità. L’architettura di Falcon-RW-1B è adattata da GPT-3 ma incorpora tecniche come ALiBi (Attention with Linear Biases) e FlashAttention per migliorare l’efficienza computazionale. Queste ottimizzazioni rendono Falcon-RW-1B adatto per l’inferenza sul dispositivo su dispositivi con risorse limitate come gli smartphone. Il modello Falcon-RW-1B-Chat mira ad aggiungere capacità di conversazione al modello Falcon-RW-1B-Instruct-OpenOrca per migliorare il coinvolgimento degli utenti, espandere i casi d’uso e fornire accessibilità per ambienti con risorse limitate come gli smartphone.
- StableLM-3B
StableLM-3B, sviluppato da Stability AI, è un modello da 3 miliardi di parametri che trova un equilibrio tra prestazioni ed efficienza. La parte migliore di StableLM-3B è che, nonostante sia stato addestrato su un numero inferiore di token, ha sovraperformato i modelli addestrati su 7 miliardi di parametri su alcuni benchmark. StableLM-3B può essere quantizzato per ridurre le larghezze di bit come la precisione a 4 bit, riducendo significativamente le dimensioni del modello a circa 3,6 GB per farlo funzionare in modo efficiente sugli smartphone. Un utente ha affermato che StableLM-3B ha superato il 7B StableLM-Base-Alpha-v2 di Stable.
- TinyLlama
TinyLlama sfrutta ottimizzazioni come FlashAttention e gli incorporamenti posizionali RoPE per migliorare l’efficienza computazionale mantenendo prestazioni elevate. È compatibile con l’architettura Llama e può essere integrato nelle app mobili esistenti basate su Llama con modifiche minime. TinyLlama può essere quantizzato su larghezze di bit inferiori come la precisione a 4 o 5 bit, riducendo significativamente la dimensione del modello a circa 550-637 MB. Un utente, condividendo la sua esperienza con TinyLlama , ha affermato che su un telefono di fascia media come l’Asus ROG, TinyLlama generava 6-7 token al secondo.
- LLaMA-2-7B
Il modello LLaMA-2-7B è stato quantizzato su pesi a 4 bit e attivazioni a 16 bit, rendendolo adatto per l’implementazione su dispositivo su smartphone. Questa quantizzazione riduce la dimensione del modello a 3,6 GB , rendendone possibile il caricamento e l’esecuzione su dispositivi mobili con RAM sufficiente. Il modello LLaMA-2-7B su dispositivo mobile richiede un dispositivo con almeno 6 GB di RAM . Durante l’inferenza, l’utilizzo massimo della memoria varia da 316 MB a 4785 MB sul Samsung Galaxy S23 Ultra. Ciò suggerisce che, sebbene il modello possa essere eseguito su dispositivi con 6 GB o più di RAM, avere più RAM consente prestazioni migliori e riduce il rischio di errori di memoria insufficiente. Anche se richiede dispositivi con RAM sufficiente e potrebbe non eguagliare la velocità dei modelli basati su cloud, offre un’opzione interessante per gli sviluppatori che desiderano creare funzionalità intelligenti basate sul linguaggio eseguibili direttamente sugli smartphone.