NVIDIA ha annunciato di aver recentemente lanciato un nuovo modello linguistico chiamato Nemotron-4 15B. Questo modello è stato allenato su una notevole quantità di 8 trilioni di token di testo e presenta 15 miliardi di parametri. È in grado di eseguire una vasta gamma di attività linguistiche in inglese, codifica e lingue multilingue.
Secondo i ricercatori, Nemotron offre prestazioni superiori rispetto ad altri modelli di trasformatori con simili dimensioni del decoder, in quattro delle sette aree di valutazione. Inoltre, compete in modo competitivo con i modelli di punta nelle restanti aree.
Nemotron ha dimostrato di essere paragonabile a Qwen-14B nei benchmark e nel codice MMLU, ma supera Gemma 7B, Mistral 7B e LLaMA-2 34B. Anche se supera tutti gli altri modelli nel ragionamento, non raggiunge gli standard di Qwen nella matematica. È degno di nota che Qwen non eccelle nel ragionamento.
Nel campo della classificazione multilingue, Nemotron-4 15B supera mGPT 13B e XGLM 7.5B. Inoltre, supera Palm-62B e Mistral 7B nella generazione di testo multilingue.
Nemotron-4 15B è stato costruito utilizzando una configurazione di base che si concentra principalmente sulla decodifica o sulla generazione di testo, focalizzandosi sull’ordine delle parole. Il modello utilizza 32 livelli per elaborare le informazioni, può gestire molti dettagli contemporaneamente e sfrutta 48 diversi punti focali per comprendere meglio il contesto. Durante l’allenamento, sono stati utilizzati dati in inglese, multilingue e codice sorgente per migliorare le prestazioni del modello in diversi contesti linguistici e di programmazione.
Per quanto riguarda il processo di addestramento, Nemotron-4 15B è stato allenato su 384 nodi DGX H100. Questo addestramento approfondito ha permesso al modello di raggiungere un’elevata precisione in una vasta gamma di compiti, dimostrando la sua versatilità ed efficienza.
Questo nuovo modello fa parte degli sforzi continuativi di NVIDIA nell’ambito dell’intelligenza artificiale e dello sviluppo di modelli. Anche se Nemotron-4 15B non è open source come la sua precedente iterazione, Nemotron-3B, una versione precedente con 8 miliardi di parametri, è disponibile su GitHub. Il chatbot Nemotron-3 è stato ottimizzato tramite un processo di fine-tuning supervisionato per fornire risposte accurate e informative alle domande.