Nell’ultimo fine settimana, Meta ha sorpreso la comunità tecnologica con il lancio di Llama 4, il suo nuovo modello di linguaggio AI. Questo modello si distingue per l’architettura “Mixture-of-Experts” e per l’uso del metodo di addestramento MetaP, promettendo prestazioni superiori e una finestra di contesto estesa. Tuttavia, a distanza di pochi giorni, sono emerse critiche riguardo alla qualità del modello, portando l’azienda a fornire spiegazioni ufficiali.

Subito dopo il rilascio, diversi membri della comunità AI hanno espresso dubbi sulle prestazioni di Llama 4. Un post non verificato su un forum cinese ha suggerito che il modello non ha superato alcuni benchmark interni, indicando che i leader di Meta avrebbero “mescolato set di test da vari benchmark durante il processo post-addestramento, cercando di soddisfare gli obiettivi su varie metriche e produrre un risultato ‘presentabile'”.

Sebbene questo post sia stato accolto con scetticismo, altri utenti hanno sottolineato risultati deludenti in specifici test, come il benchmark “aider polyglot”, dove Llama 4 Maverick ha ottenuto un punteggio del 16%, inferiore a modelli precedenti come DeepSeek V3 e Claude 3.7 Sonnet.

In risposta alle critiche, Meta ha riconosciuto che alcune delle prestazioni deludenti di Llama 4 sono attribuibili a bug nel modello. L’azienda ha spiegato che durante l’addestramento sono stati identificati errori che hanno influenzato negativamente i risultati. Meta ha assicurato che questi problemi sono stati corretti e ha invitato la comunità a testare nuovamente il modello per valutare le migliorie apportate.

In risposta alle preoccupazioni sollevate, Meta ha spiegato che l’uso di diverse varianti dei modelli per testare differenti configurazioni era parte di un esperimento per valutare le preferenze degli utenti. L’azienda ha sottolineato che non c’è stato alcun addestramento sui set di test e che le differenze nelle prestazioni sono attribuibili a varianti personalizzate e a implementazioni in fase di stabilizzazione.

Di Fantasy