Immagine AI

Poter avere una piccola ma potentissima intelligenza artificiale direttamente sul vostro smartphone o laptop, senza dover sempre dipendere dal cloud. Immaginate di poter effettuare ricerche semantiche, costruire agenti intelligenti o pipeline Retrieval-Augmented Generation (RAG) offline, in tutta privacy: questo scenario non è più fantascienza con Google e con il suo nuovo modello open-source EmbeddingGemma.

Presentato ufficialmente nei primi giorni di settembre 2025, EmbeddingGemma è una versione ultraleggera della famiglia Gemma, pensata espressamente per girare su dispositivi come telefoni, portatili e desktop con risorse limitate. La sua architettura si basa su Gemma 3 ed è un “encoder” efficiente, dotato di 308 milioni di parametri, che riesce nondimeno a competere con modelli molto più grandi.

EmbeddingGemma è stato addestrato su oltre 100 lingue, offrendo una portata linguistica ampissima pur restando sotto i 500 milioni di parametri. Nei test comparativi del Massive Text Embedding Benchmark (MTEB) v2 Multilingual, EmbeddingGemma si è classificato come il migliore nella sua classe, superando altri modelli open multilingue di dimensioni analoghe.

La vera forza di EmbeddingGemma è la sua capacità di coniugare precisione e risparmio di risorse. Il modello è quantizzato, il che significa che, una volta ridotto e ottimizzato, occupa meno di 200 MB di RAM. Inoltre, grazie alla tecnologia Matryoshka Representation Learning (MRL), è possibile scegliere tra diversi formati di embedding: il massimo della qualità (768 dimensioni) oppure versioni ridotte (512, 256, 128 dimensioni) per migliorare velocità e ridurre spazio di archiviazione.

Google segnala anche un tempo di inferenza fulmineo: meno di 15 ms su un Edge TPU per 256 token, rendendo EmbeddingGemma ideale per applicazioni in tempo reale, come chatbot o sistemi di ricerca semantica.

Uno dei vantaggi principali di EmbeddingGemma è il suo funzionamento offline, garantendo massima privacy. Tutti i calcoli degli embedding avvengono localmente, senza alcuna necessità di connessione. Questo apre la strada a tante applicazioni: ricerca tra file personali, email, notifiche, o chatbot specializzati RAG che rispondono alle vostre domande direttamente sul dispositivo.

Un altro aspetto importante pensato da Google: l’integrazione con un gran numero di strumenti utilizzati già oggi dagli sviluppatori. EmbeddingGemma si adatta perfettamente a tool come Ollama, llama.cpp, MLX, LiteRT, LMStudio, LangChain, LlamaIndex, Cloudflare e molti altri ancora. Questo consente di sperimentarlo e integrarlo facilmente in pipeline esistenti, sia in ambito di ricerca che di generazione di contenuti.

Gli sviluppatori non sono lasciati soli: sono disponibili guide per il fine-tuning del modello per casi d’uso specifici. Un esempio emblematico è quello di un modello fine-tuned su dati medici (MIRIAD), chiamato sentence-transformers/embeddinggemma-300m-medical, che ha mostrato performance elevatissime su task di recupero informazioni mediche, superando modelli generali più grandi.

Il lancio di EmbeddingGemma arriva in un momento di crescente interesse verso modelli AI che possono operare in modo efficiente sul dispositivo. Le aziende – da Apple a Samsung, da Qualcomm – stanno sviluppando hardware e software ottimizzati per l’AI locale, in un contesto dove efficienza energetica, prestazioni e privacy sono fattori chiave. EmbeddingGemma si inserisce perfettamente in questo panorama, portando embedding di qualità elevata direttamente nel palmo delle nostre mani.

Di Fantasy