Google testa Gemma 4: la strategia multi-scala tra modelli compatti e MoE da 120 miliardi

Google sta preparando il lancio della nuova generazione della famiglia di modelli open weight Gemma, con la comparsa di Gemma 4 in fase di test non ufficiale sulla piattaforma di benchmarking Chatbot Arena. Il modello è stato individuato con il nome in codice “significant-otter”, suggerendo un rilascio imminente e confermando che il progetto è già in una fase avanzata di valutazione pubblica. La presenza su Chatbot Arena è significativa perché questa piattaforma viene utilizzata per confronti diretti tra modelli AI attraverso test comparativi basati sulle preferenze degli utenti.

Uno degli elementi più rilevanti emersi riguarda la struttura della linea Gemma 4, che include modelli di dimensioni molto diverse. Sono stati identificati modelli compatti da 2 miliardi e 4 miliardi di parametri, affiancati da una variante molto più grande basata su architettura Mixture-of-Experts da 120 miliardi di parametri con circa 15 miliardi attivi. Questa configurazione indica una strategia multi-scala, in cui Google punta a coprire sia l’esecuzione locale su dispositivi limitati sia scenari ad alte prestazioni.

I modelli più piccoli sono particolarmente rilevanti per il mercato dell’on-device AI. La possibilità di eseguire modelli da 2B o 4B parametri su smartphone o PC consente di sviluppare applicazioni offline, con minori requisiti di latenza e maggiore controllo dei dati. L’articolo sottolinea che queste versioni potrebbero includere funzionalità multimodali, con supporto non solo al testo ma anche a immagini e audio, ampliando le possibilità di utilizzo in ambienti edge e sistemi embedded.

La presenza di un modello MoE da 120 miliardi rappresenta un salto significativo per la famiglia Gemma. È la prima volta che la serie include una variante di dimensioni così elevate, e l’uso dell’architettura Mixture-of-Experts consente di mantenere l’efficienza attivando solo una parte dei parametri durante l’inferenza. Questo approccio permette di ottenere prestazioni elevate senza un aumento lineare dei costi computazionali, rendendo il modello adatto a compiti complessi e a scenari di agenti locali ad alte prestazioni.

L’emergere di Gemma 4 su Chatbot Arena suggerisce anche una fase di test comparativo con altri modelli concorrenti. La piattaforma è infatti utilizzata per valutazioni in condizioni reali, dove gli utenti confrontano direttamente le risposte senza conoscere l’identità dei modelli. Questo tipo di test consente di raccogliere feedback qualitativo sulle prestazioni e di calibrare il modello prima del rilascio ufficiale. La comparsa del nome in codice e l’autodescrizione come “modello sviluppato da Google DeepMind” indicano che la distribuzione pubblica potrebbe essere prossima.

La strategia evidenziata dal nuovo lineup riflette un approccio duale. Da un lato, i modelli compatti mirano a rafforzare l’AI locale, permettendo l’esecuzione su dispositivi con risorse limitate. Dall’altro, la variante di grandi dimensioni è pensata per applicazioni avanzate e agenti più sofisticati. Questa combinazione suggerisce che Google intenda coprire contemporaneamente il mercato edge e quello delle applicazioni ad alte prestazioni, senza dipendere esclusivamente da infrastrutture cloud.

Google testa Gemma 4: la strategia multi-scala tra modelli compatti e MoE da 120 miliardi

DiFantasy

Di Fantasy

Articoli correlati

Xiaomi presenta una mano robotica con “sudorazione” artificiale per migliorare precisione e raffreddamento nel robot umanoide CyberOne

ByteDance rafforza watermark e protezione IP di Seedance 2.0 per limitare abusi e contenuti non autorizzati

Robot autonomi installano impianti solari da 100 MW: il sistema Maximo accelera la costruzione dei parchi fotovoltaici

Ultimi Post

Xiaomi presenta una mano robotica con “sudorazione” artificiale per migliorare precisione e raffreddamento nel robot umanoide CyberOne

Google testa Gemma 4: la strategia multi-scala tra modelli compatti e MoE da 120 miliardi

ByteDance rafforza watermark e protezione IP di Seedance 2.0 per limitare abusi e contenuti non autorizzati

Robot autonomi installano impianti solari da 100 MW: il sistema Maximo accelera la costruzione dei parchi fotovoltaici