Immagine AI

Google ha ampliato la famiglia dei modelli open Gemma con il rilascio di Gemma 4 12B, una nuova architettura multimodale progettata per eseguire attività avanzate direttamente su hardware consumer dotato di 16 GB di memoria. Il modello introduce un approccio differente rispetto a molte architetture multimodali tradizionali, con l’obiettivo di ridurre il consumo di risorse e rendere più accessibile l’esecuzione locale di applicazioni basate sull’intelligenza artificiale.

Uno degli aspetti più significativi riguarda l’architettura encoder-free adottata dal modello. Nelle soluzioni multimodali convenzionali, immagini, audio e altri contenuti vengono normalmente elaborati da encoder specializzati prima di essere trasferiti al modello linguistico principale. Gemma 4 12B elimina gran parte di questo passaggio intermedio, consentendo ai dati multimodali di essere elaborati in modo più diretto all’interno del backbone del modello. Secondo Google, questa scelta contribuisce a ridurre latenza, complessità operativa e occupazione della memoria durante l’inferenza.

Il sistema è in grado di gestire nativamente testo, immagini, audio e video all’interno della stessa architettura. L’integrazione dell’elaborazione audio rappresenta inoltre una novità importante per un modello di queste dimensioni nella famiglia Gemma, estendendo le possibilità di utilizzo a scenari che includono trascrizione, analisi vocale, interazione conversazionale e applicazioni multimodali avanzate eseguite direttamente sul dispositivo dell’utente.

L’obiettivo del progetto è consentire agli sviluppatori di realizzare applicazioni AI senza dipendere necessariamente da infrastrutture cloud dedicate. Gemma 4 12B può essere utilizzato per workflow agentici locali, elaborazione documentale, generazione di codice, automazione di attività e analisi multimodale mantenendo i dati sul dispositivo. Questa caratteristica può risultare particolarmente interessante in contesti in cui privacy, controllo dei dati o disponibilità limitata della connettività rappresentano fattori critici.

Google ha inoltre accompagnato il rilascio con strumenti dedicati all’esecuzione locale, inclusi componenti della piattaforma Google AI Edge e nuove applicazioni desktop per macOS progettate per sfruttare direttamente le capacità del modello. L’ecosistema consente di utilizzare Gemma 4 12B per attività di analisi dati, sviluppo software, elaborazione vocale e automazione locale, ampliando le possibilità di impiego dei modelli open-weight al di fuori dei tradizionali ambienti server.

Con Gemma 4 12B, Google punta quindi a rendere più praticabile l’esecuzione di modelli multimodali avanzati su computer portatili di fascia consumer, riducendo le barriere hardware normalmente associate a questo tipo di sistemi e portando funzionalità AI sempre più complesse direttamente sui dispositivi degli utenti.

Di Fantasy