Meta sta puntando a far corrispondere le capacità di Llama 3 a quelle di GPT-4, compresa la capacità di rispondere a domande basate su immagini. Tuttavia, la decisione su se rendere Llama 3 multimodale, ovvero capace di gestire sia testi che immagini, è ancora in sospeso, in attesa di ulteriori sviluppi. Allo stesso tempo, OpenAI ha recentemente introdotto il proprio modello di generazione di testo nei video, noto come Sora.
Uno degli obiettivi principali di Meta è migliorare la reattività di Llama 3 alle domande più impegnative, cercando un equilibrio tra l’engagement del prodotto e la mitigazione del rischio di risposte inadeguate o imprecise. Google, dal canto suo, ha affrontato recentemente alcune sfide, in particolare con il suo modello di intelligenza artificiale Gemini, criticato per essere troppo arguto.
Per raggiungere questo obiettivo, Meta prevede di nominare una figura interna per supervisionare la formazione sul tono e sulla sicurezza nelle prossime settimane, con l’intento di affinare i risultati del modello. Il gruppo di intelligenza artificiale generativa di Meta, separato dal team di ricerca sull’intelligenza artificiale fondamentale, sta guidando lo sviluppo di Llama.
Secondo fonti interne di Meta, i ricercatori stanno apportando modifiche a Llama 3 per renderlo più interattivo quando gli utenti pongono domande complesse. L’obiettivo è fornire contesto anziché rigettare apertamente le domande impegnative. Il prossimo modello mira a comprendere meglio le parole con molteplici significati.
Per esempio, Llama 3 potrebbe capire che una domanda su come spegnere il motore di un veicolo significhi chiedere come fermarlo, anziché terminarne la vita.
Llama occupa una posizione fondamentale nella strategia di intelligenza artificiale di Meta, con l’obiettivo di migliorare gli strumenti pubblicitari e aumentare l’attrattiva delle app sui social media. Il CEO di Meta, Mark Zuckerberg, ha evidenziato queste priorità durante recenti discussioni con gli investitori.