Meta ha annunciato il rilascio di “Llama Guard 3-1B-INT4”, un modello di linguaggio di piccole dimensioni progettato per funzionare efficacemente su dispositivi edge come smartphone e tablet. Questo modello, ottimizzato per garantire sicurezza e conformità etica, rappresenta un passo significativo nell’espansione dell’intelligenza artificiale verso dispositivi con risorse computazionali limitate.

Llama Guard 3-1B-INT4 è stato presentato durante l’evento “Meta Connect 2024” a settembre, e ora sono stati resi noti dettagli tecnici che ne evidenziano le capacità. Con un peso di soli 440 megabyte, il modello è sette volte più leggero rispetto al suo predecessore, Llama Guard 3-1B, senza compromettere le prestazioni. Questo risultato è stato ottenuto attraverso tecniche avanzate di compressione, tra cui il pruning dei blocchi decoder e dei neuroni, nonché la quantizzazione durante l’addestramento. Il pruning consente di rimuovere selettivamente parametri meno rilevanti, mentre la quantizzazione riduce la precisione dei pesi a formati a bit più bassi, diminuendo così le dimensioni complessive del modello.

Per recuperare eventuali perdite di qualità derivanti dalla compressione, i ricercatori hanno applicato la tecnica della distillazione, utilizzando il modello più grande Llama Guard 3-8B come insegnante per addestrare il modello più piccolo. Questo approccio ha permesso a Llama Guard 3-1B-INT4 di mantenere elevate prestazioni nonostante la riduzione delle dimensioni. In test su dispositivi mobili con CPU standard Android, il modello ha raggiunto una velocità di elaborazione superiore a 30 token al secondo, con un tempo di risposta per il primo token inferiore a 2,5 secondi.

L’architettura del modello è stata ottimizzata riducendo il numero di blocchi decoder da 16 a 12 e diminuendo la dimensione nascosta del multilayer perceptron (MLP) da 8192 a 6400, portando il numero totale di parametri da 1,5 miliardi a 1,1 miliardi. La quantizzazione ha ulteriormente compresso i pesi del modello a INT4 e le funzioni di attivazione a INT8, riducendo le dimensioni di quattro volte rispetto alla precisione a 16 bit. Inoltre, sono stati eliminati livelli di output non necessari, mantenendo solo 20 token essenziali, garantendo al contempo la compatibilità con le interfacce esistenti.

Nei test di performance, Llama Guard 3-1B-INT4 ha ottenuto un punteggio F1 di 0,904 su contenuti in lingua inglese, superando il modello più grande Llama Guard 3-1B, che aveva registrato 0,899. Il punteggio F1 è una metrica che combina precisione e richiamo, indicando l’accuratezza complessiva del modello. Inoltre, in test multilingue, il modello ha mostrato prestazioni pari o superiori a quelle di modelli più grandi in cinque delle otto lingue testate, tra cui francese, spagnolo e tedesco. In scenari zero-shot, Llama Guard 3-1B-INT4 ha ottenuto punteggi di moderazione della sicurezza superiori a quelli di GPT-4 in sette lingue.

Grazie alla sua efficienza e alle dimensioni ridotte, Llama Guard 3-1B-INT4 è particolarmente adatto per l’implementazione su dispositivi mobili. È stato testato con successo su smartphone come il Motorola Razr, dimostrando la sua capacità di operare efficacemente senza la necessità di connessioni a server cloud. Attualmente, il modello è disponibile per il download su GitHub, offrendo agli sviluppatori l’opportunità di integrarlo nelle loro applicazioni e contribuire all’espansione dell’intelligenza artificiale su dispositivi edge.

Di Fantasy