Meta ha annunciato oggi la nuova versione del suo modello linguistico open source, Llama-3.1, che rappresenta un notevole avanzamento rispetto alle versioni precedenti.
Dopo mesi di anticipazioni e una fuga di notizie, Meta ha ufficialmente lanciato Llama-3.1, una versione da 405 miliardi di parametri del suo modello linguistico open source. Questa nuova versione è un aggiornamento rispetto a Llama-3, rilasciato ad aprile 2024, che era disponibile solo nelle varianti da 8 miliardi e 70 miliardi di parametri.
I parametri sono le impostazioni che definiscono come un modello linguistico risponde ai dati di addestramento. In generale, più parametri ha un modello, più è potente e capace di gestire istruzioni complesse e fornire risposte accurate.
Llama-3.1 non solo ha un numero maggiore di parametri, ma può anche “insegnare” ai modelli più piccoli e generare dati sintetici. Il modello sarà rilasciato con una licenza open source personalizzata, che permette la distillazione del modello e la creazione di dati sintetici.
Secondo Ragavan Srinivasan, vicepresidente di AI Program Management presso Meta, “Llama-3.1 offrirà prestazioni all’avanguardia tra i modelli open source e sarà altamente competitivo rispetto ai modelli proprietari più avanzati.”
Caratteristiche principali di Llama-3.1:
- Multilingue: Supporta prompt in inglese, portoghese, spagnolo, italiano, tedesco, francese, hindi e tailandese. I modelli più piccoli della serie Llama-3 saranno aggiornati per supportare anch’essi più lingue.
- Finestra di contesto ampliata: Con una finestra di contesto di 128.000 token, gli utenti possono inserire testi lunghi fino a quasi 400 pagine.
- Prestazioni: Meta ha testato Llama-3.1 su oltre 150 set di dati e afferma che il modello è competitivo con leader di settore come GPT-4 e Claude 3.5 Sonnet. Anche i modelli più piccoli hanno mostrato prestazioni simili a quelle di modelli rivali.
- Modello didattico: Meta ha aggiornato la licenza per consentire la distillazione del modello e la creazione di dati sintetici. Questo significa che Llama-3.1 può trasferire conoscenza ai modelli più piccoli, rendendoli più efficienti per compiti specifici.
Per addestrare il modello da 405 miliardi di parametri, Meta ha utilizzato oltre 16.000 GPU Nvidia H100 e una procedura di post-formazione per migliorare ulteriormente le prestazioni.
Llama-3.1 sarà open source e disponibile su piattaforme come AWS, Nvidia, Groq, Dell, Databricks, Microsoft Azure, Google Cloud, WhatsApp e Meta AI. Su AWS, sarà accessibile tramite Bedrock e Sagemaker, e i clienti potranno personalizzare il modello per le loro esigenze.