Recentemente, Apple ha introdotto una metodologia rivoluzionaria nel documento “LLM in un lampo: Efficient Large Language Model Inference with Limited Memory”. Questa tecnica consente l’esecuzione di Large Language Models (LLM) su dispositivi con limitata capacità di DRAM, attraverso l’uso innovativo della memoria flash per memorizzare e trasferire i parametri del modello.

Il metodo di Apple si basa su un modello di costo di inferenza che si adatta alle caratteristiche della memoria flash. L’obiettivo è doppio: minimizzare la quantità di dati trasferiti dalla memoria flash e ottimizzare la lettura dei dati in blocchi più grandi e consecutivi.

Per raggiungere questi obiettivi, Apple impiega due strategie principali: il “windowing”, che riutilizza i neuroni attivati in precedenza per ridurre il trasferimento dei dati, e il “bundling riga-colonna”, che sfrutta la forza dell’accesso sequenziale ai dati della memoria flash per aumentare la dimensione dei blocchi letti.

Questi approcci permettono di gestire modelli fino al doppio della dimensione della DRAM disponibile, migliorando la velocità di inferenza fino a 4-5 volte su CPU e 20-25 volte su GPU rispetto ai metodi tradizionali.

L’importanza di questa ricerca si evidenzia nel contesto dell’integrazione delle funzionalità di intelligenza artificiale generativa nel prossimo iOS 18. Apple intende potenziare applicazioni come Siri, l’app Messaggi, Apple Music, Pages, Keynote e Xcode con questa tecnologia, rendendo le interazioni più intelligenti e intuitive.

Nel frattempo, Samsung sta lavorando sul proprio LLM per dispositivi, chiamato Gauss, previsto per essere integrato nel Galaxy S24 all’inizio del 2024. Questo modello sarà utilizzato per migliorare le funzionalità intelligenti nei dispositivi Samsung come smartphone, laptop e tablet.

Anche Google non è da meno e ha annunciato Gemini Nano, il suo LLM per dispositivi, che sarà implementato nei futuri Google Pixel 8. Le funzioni previste includono la capacità di riepilogare automaticamente in Registratore e offrire risposte intelligenti in Gboard.

Di Fantasy