Microsoft ha recentemente pubblicato una ricerca che stima le dimensioni di alcuni dei modelli di intelligenza artificiale più avanzati attualmente esistenti, informazioni che le aziende tendono a mantenere riservate.
Secondo Microsoft, il modello Claude 3.5 Sonnet di Anthropic conterebbe 175 miliardi di parametri, mentre l’o1 Preview di OpenAI ne avrebbe 300 miliardi. Inoltre, i modelli più piccoli di OpenAI, come l’o1 Mini e il GPT-4o Mini, avrebbero rispettivamente 100 miliardi e 8 miliardi di parametri.
Queste rivelazioni hanno suscitato notevole interesse nella comunità tecnologica. In particolare, il GPT-4o Mini, con i suoi 8 miliardi di parametri, si posiziona al di sopra del più grande GPT-4o e del Claude 3.5 Haiku, risultando comparabile al recente Llama 3.3 70B, secondo un indice di qualità fornito da Artificial Analysis. Un modello con 8 miliardi di parametri potrebbe essere integrato in dispositivi portatili per un utilizzo locale.
Yuchen Jin, CTO di Hyperbolic Labs, ha chiesto a Sam Altman, CEO di OpenAI, se considererebbe l’idea di rendere open source il GPT-4o Mini, permettendone l’esecuzione su dispositivi locali.
Tuttavia, alcuni esperti ipotizzano che il GPT-4o Mini, similmente al GPT-4o, possa essere un modello “mixture of experts” (MoE), che utilizza modelli più piccoli e specializzati al suo interno per affrontare diverse parti di un problema.
Oscar Le, CEO di SnapEdit, ha suggerito che il 4o Mini potrebbe essere un MoE con un totale di circa 40 miliardi di parametri, di cui probabilmente 8 miliardi attivi durante l’elaborazione.
Microsoft ha utilizzato questi modelli nella sua ricerca per sviluppare un benchmark per il rilevamento e la correzione di errori medici nelle note cliniche.
Tuttavia, l’azienda ha precisato che il numero esatto di parametri di diversi modelli linguistici di grandi dimensioni (LLM) non è stato ancora divulgato pubblicamente e che le cifre riportate sono stime fornite per contestualizzare le prestazioni dei modelli.
OpenAI, Anthropic e Google non hanno rilasciato rapporti tecnici dettagliati che descrivano le caratteristiche architetturali e le tecniche utilizzate per costruire i loro modelli più recenti, probabilmente per timore di rivelare tecnologie proprietarie.
Per esempio, GPT-4, rilasciato nel 2023, è stato l’ultimo modello di OpenAI accompagnato da un rapporto tecnico dettagliato. Al contrario, aziende come Microsoft e i giganti cinesi dell’IA, Alibaba con Qwen e DeepSeek, hanno pubblicato documentazioni tecniche approfondite sui loro modelli.
Recentemente, i modelli Phi-4 di Microsoft sono stati presentati con tutti i dettagli tecnici. Harkirat Behl, uno dei creatori dei modelli Phi-4 di Microsoft, ha dichiarato che l’azienda sta adottando un approccio diverso rispetto a OpenAI o Google, fornendo tutte le “ricette segrete” e le tecniche complesse utilizzate, dimostrando un forte impegno verso l’open source. Negli ultimi anni, si è osservata una tendenza alla riduzione del numero di parametri nei modelli di intelligenza artificiale, e le recenti rivelazioni di Microsoft confermano questa tendenza.
L’anno scorso, EpochAI ha svelato i parametri di diversi modelli all’avanguardia, come GPT-4o e Claude 3.5 Sonnet. Secondo EpochAI, GPT-4o avrebbe 200 miliardi di parametri, mentre Claude 3.5 Sonnet ne conterebbe circa 400 miliardi, in contrasto con le stime di Microsoft.
Indipendentemente dalle discrepanze, queste informazioni suggeriscono che i modelli più recenti stanno diventando più efficienti, ottenendo prestazioni elevate con un numero inferiore di parametri.