NVIDIA ha appena annunciato il nuovo modello di linguaggio di piccole dimensioni, il “Llama-3.1-Minitron 4B”, che offre prestazioni eccezionali nella sua categoria.
Secondo quanto riportato da Mark Tech Post, NVIDIA ha creato il modello “Llama-3.1-Minitron 4B” comprimendo il precedente modello “Llama-3.1 8B”. Questa riduzione è stata ottenuta grazie a tecniche avanzate di “potatura del peso” e “distillazione della conoscenza” applicate al modello originale più grande.
La potatura è una tecnica che riduce le dimensioni e la complessità di un modello eliminando strati, neuroni e altre componenti meno importanti, mantenendo al contempo le sue prestazioni. NVIDIA ha applicato una potatura profonda rimuovendo 16 strati dal modello Llama-3.1 8B, riducendolo da 8 miliardi a 4 miliardi di parametri. Inoltre, è stata effettuata una potatura della larghezza per semplificare ulteriormente il modello.
La distillazione del modello è un’altra tecnica utilizzata, che trasferisce la conoscenza da un modello più grande (il “modello insegnante”) a uno più piccolo e semplice (il “modello studente”). Questo processo rende il modello più efficiente, veloce e meno esigente in termini di risorse, pur mantenendo una buona capacità predittiva.
NVIDIA ha utilizzato tecniche di distillazione per ottimizzare il Llama-3.1-Minitron 4B, migliorando l’efficienza del modello e riducendo i dati necessari per l’addestramento. Questo ha portato a significativi risparmi sui costi computazionali, rendendo il modello una scelta eccellente per scenari con risorse limitate.
Il nuovo modello ha dimostrato prestazioni superiori in vari benchmark, superando altri modelli di piccole dimensioni come “Minitron 4B”, “Pi-2 2.7B”, “Gemma 2 2.6B” e “Q1-1.5B” in diverse aree, tra cui ragionamento, codifica e matematica. Inoltre, grazie all’ottimizzazione con il toolkit “TensorRT-LLM”, il rendimento del modello con precisione FP8 è fino a 2,7 volte superiore rispetto al modello Llama 3.1 8B originale, rendendolo ancora più potente ed efficiente.