Oggi, durante il Meta Connect, l’azienda ha presentato Llama 3.2, il suo nuovo modello linguistico che può comprendere sia immagini che testo. Questo segna il primo importante passo di Meta verso la creazione di modelli visivi di grandi dimensioni (LLM).
Llama 3.2 include modelli di diverse dimensioni, con parametri che vanno da 1 miliardo a 90 miliardi, rendendoli adatti per dispositivi mobili e edge computing. Mark Zuckerberg, CEO di Meta, ha dichiarato: “Questo è il nostro primo modello multimodale open source, che abiliterà molte applicazioni richiedenti una comprensione visiva.”
Il modello ha una lunghezza di contesto di 128.000 token, permettendo agli utenti di inserire un grande volume di testo, paragonabile a centinaia di pagine di un libro. Maggiore è il numero di parametri, più accurati e complessi possono essere i compiti gestiti dal modello.
Meta ha condiviso le distribuzioni ufficiali dello stack Llama, consentendo agli sviluppatori di utilizzare i modelli in vari ambienti, inclusi on-premise, cloud e su dispositivi. Zuckerberg ha affermato che “l’open source diventerà l’opzione più conveniente e personalizzabile nel settore”, suggerendo che potrebbe diventare uno standard simile a Linux nel campo dell’IA.
Lama 3.2 arriva dopo il rilascio di Llama 3.1, che ha già visto una crescita esponenziale. I modelli più grandi (11B e 90B) ora supportano casi d’uso che comprendono immagini, diagrammi e grafici. Ad esempio, gli utenti possono chiedere di identificare il mese con le migliori vendite basandosi su grafici. Inoltre, questi modelli possono generare didascalie per le immagini.
I modelli più leggeri sono progettati per aiutare gli sviluppatori a creare applicazioni personalizzate, come riassumere messaggi o inviare inviti a riunioni. Meta afferma che Llama 3.2 è competitivo con i modelli di Anthropic e OpenAI, offrendo prestazioni superiori in vari compiti di comprensione visiva.
Meta sta ampliando la sua intelligenza artificiale per consentire alle aziende di utilizzare annunci su WhatsApp e Messenger, creando agenti che possono rispondere a domande comuni e gestire acquisti. Attualmente, oltre un milione di inserzionisti utilizzano questi strumenti di intelligenza artificiale generativa, con campagne che mostrano tassi di clic e conversione superiori rispetto a quelle tradizionali.
Con Llama 3.2, Meta AI ora può rispondere con voci di celebrità come Judi Dench, John Cena e Awkwafina. Zuckerberg ha affermato: “La voce sarà un modo molto più naturale di interagire con l’intelligenza artificiale rispetto al testo.”
Il modello risponderà ai comandi vocali e di testo con le voci di celebrità su piattaforme come WhatsApp, Messenger, Facebook e Instagram. Inoltre, Meta AI potrà rispondere a foto condivise in chat e apportare modifiche a immagini e sfondi. L’azienda sta anche esplorando nuove funzionalità come traduzione, doppiaggio video e sincronizzazione labiale.
Zuckerberg ha concluso affermando che Meta AI è sulla buona strada per diventare l’assistente più utilizzato al mondo: “Probabilmente è già lì.”