L’interesse per i casi d’uso degli LLM sta crescendo rapidamente, grazie al lancio di Llama 2, il nuovo modello open source di Meta. Sebbene Meta abbia reso Llama disponibile al pubblico, c’è ancora una grande sfida nell’eseguirlo su hardware locale. Per affrontare questo problema e permettere a tutti di sfruttare appieno la potenza di Llama 2, Meta ha collaborato con Qualcomm per ottimizzare il modello per l’esecuzione su dispositivi alimentati dalle capacità AI dei chip.
Gli esperti del settore prevedono che gli LLM open source possano dare vita a una nuova generazione di contenuti basati sull’intelligenza artificiale, assistenti intelligenti, applicazioni per la produttività e molto altro ancora. L’abilità di eseguire nativamente LLM sui dispositivi creerà un solido ecosistema di applicazioni basate sull’intelligenza artificiale, simile all’esplosione dell’app store avvenuta con gli iPhone.
Questa mossa non solo democratizzerà l’accesso al modello, ma aprirà anche nuove possibilità per l’elaborazione dell’IA sui dispositivi. Arriva in un momento in cui le industrie dell’hardware e del software stanno riconoscendo le potenzialità dell’intelligenza artificiale in ambito edge. Inizialmente spinto dall’inclusione di un motore neurale nel chip M1 di Apple, l’aggiunta di un nuovo tipo di processore ai computer personali darà finalmente agli sviluppatori gli strumenti per creare un’IA realmente accessibile a tutti.
Per contestualizzare, Qualcomm sta attualmente sviluppando una nuova serie di chip abilitati all’intelligenza artificiale all’interno della piattaforma Snapdragon. Utilizzando ciò che viene chiamato il processore Hexagon, Qualcomm sta dotando i propri chip di diverse capacità di intelligenza artificiale. Attraverso un approccio chiamato micro tile inferencing, Qualcomm è in grado di integrare tensor core, elaborazione dedicata per SegNet e carichi di lavoro scalari e vettoriali in un processore AI, che viene quindi integrato nei chip Snapdragon per dispositivi mobili.
Come parte della loro collaborazione con Meta, Qualcomm renderà disponibili le implementazioni di Llama 2 sui dispositivi, sfruttando le capacità dei nuovi chip Snapdragon abilitati all’intelligenza artificiale. Poiché il modello verrà eseguito sui dispositivi, gli sviluppatori potranno ridurre i costi di cloud computing per le loro applicazioni e garantire un maggiore livello di privacy agli utenti, poiché i dati non dovranno transitar attraverso server esterni.
L’esecuzione dei modelli sui dispositivi offre anche il vantaggio di poter utilizzare l’IA generativa senza la necessità di una connessione Internet. Inoltre, i modelli possono essere personalizzati in base alle preferenze degli utenti poiché “risiedono” direttamente sui dispositivi. Llama 2 si integrerà perfettamente anche con lo stack AI di Qualcomm, un insieme di strumenti per sviluppatori creati per ottimizzare ulteriormente l’esecuzione dei modelli di intelligenza artificiale sui dispositivi.
“Diamo valore all’approccio di Meta all’IA aperta e responsabile e ci impegniamo a guidare l’innovazione e a ridurre le barriere all’ingresso per gli sviluppatori di tutte le dimensioni, portando l’IA generativa sui dispositivi”, ha affermato Durga Malladi, vicepresidente senior e direttore generale di Qualcomm per le attività di tecnologia, pianificazione e soluzioni edge.
Qualcomm ha anche collaborato strettamente con Meta in passato, principalmente per sviluppare chip per gli occhiali Oculus Quest VR. L’azienda ha inoltre collaborato con Microsoft per aiutare a distribuire carichi di lavoro AI sui dispositivi. Nell’ambito di una partnership con Qualcomm e altri produttori di chip come Intel, AMD e NVIDIA, Microsoft ha introdotto il nuovo toolkit Hybrid AI Loop per supportare lo sviluppo dell’IA edge. Considerando l’ampio ecosistema hardware e software per l’IA edge, è evidente che il settore si sta muovendo verso l’IA edge e Llama 2 potrebbe avere un ruolo più importante di quanto si pensi.
Sembra che Meta abbia tratto importanti insegnamenti dalla divulgazione del primo modello LLaMA. Sebbene la prima iterazione di questo LLM fosse disponibile solo per ricercatori e istituzioni accademiche, il modello e i suoi pesi sono trapelati su Internet tramite 4chan. Ciò ha dato il via a un’esplosione di innovazione open source basata su LLaMA come modello di base.
In meno di un mese dal suo lancio, la comunità open source aveva già apportato numerosi miglioramenti a LLaMA. I ricercatori dell’Università di Stanford hanno creato una versione di LLaMA che poteva essere addestrata con un costo di soli 600 dollari, il che ha portato allo sviluppo di molte altre versioni più veloci e leggere. La maggior parte, se non tutte, di queste versioni potrebbero essere eseguite sui dispositivi, fornendo al mondo accesso ai propri LLM.
Un programmatore ha portato il modello LLM in C++, risultando in una versione che poteva essere eseguita su un telefono. Il progetto, chiamato LLaMA.cpp, è stato alimentato dalla comunità open source, che ha anche quantizzato i pesi del modello. Questa innovazione ha permesso al modello di funzionare su un Google Pixel 5, anche se generava solo 1 token al secondo.
Nel contesto della recente partnership con Meta, Snapdragon potrebbe ottenere informazioni sul funzionamento interno del modello. Ciò consentirebbe al produttore di chip di apportare alcune ottimizzazioni, consentendo a Llama 2 di funzionare meglio rispetto ad altri modelli. Considerando il previsto lancio nel 2024, è probabile che Qualcomm esplori ulteriori partnership in concomitanza con il lancio del suo chip Snapdragon 8 Gen 3.
La comunità open source è sicuramente pronta a contribuire attivamente a Llama 2, che è (quasi) completamente open source. Unendo questo impegno all’ampio slancio dell’industria verso l’IA su dispositivi, questa mossa è solo la prima di molte che sosterranno un vivace ecosistema di intelligenza artificiale su dispositivi.