Google presenta DiffusionGemma, un modello linguistico che genera testo tramite diffusione invece che token sequenziali

Google ha presentato DiffusionGemma, un nuovo modello linguistico open source che applica alla generazione del testo i principi della diffusione, una tecnica finora associata principalmente ai sistemi di generazione delle immagini. Il progetto rappresenta un cambiamento significativo rispetto all’approccio autoregressivo utilizzato dalla quasi totalità degli attuali modelli linguistici, inclusi GPT, Gemini, Claude, Llama e Gemma.

Nei modelli autoregressivi tradizionali il testo viene prodotto un token alla volta. Ogni nuova parola dipende dalle precedenti e deve quindi essere generata in sequenza. Questo approccio offre un elevato livello di qualità e controllo, ma limita la parallelizzazione dell’inferenza e rende difficile sfruttare completamente la potenza di calcolo disponibile sulle GPU.

DiffusionGemma adotta invece un paradigma differente. Il modello genera inizialmente un blocco di testo composto da 256 token e successivamente lo perfeziona attraverso una serie di iterazioni successive. Il processo ricorda il funzionamento dei modelli di diffusione utilizzati nella generazione di immagini, nei quali una rappresentazione inizialmente rumorosa viene progressivamente raffinata fino a ottenere il risultato finale. Nel caso del testo, il sistema parte da una bozza preliminare e modifica ripetutamente parole e sequenze fino a convergere verso una risposta coerente.

Google definisce questo approccio Uniform State Diffusion. Durante ogni ciclo di raffinamento il modello identifica le parti della risposta considerate più affidabili e utilizza tali elementi come riferimento per aggiornare le sezioni meno certe. Un vantaggio di questa architettura è la possibilità di correggere autonomamente parole o segmenti generati in precedenza. A differenza dei modelli autoregressivi, che normalmente non possono modificare token già emessi, DiffusionGemma può rigenerare parti della risposta durante il processo di convergenza.

Dal punto di vista architetturale, il modello è basato sulla famiglia Gemma 4 e utilizza una configurazione Mixture of Experts con 26 miliardi di parametri complessivi. Durante l’inferenza vengono però attivati circa 3,8 miliardi di parametri, riducendo significativamente il carico computazionale effettivo. Il sistema supporta input multimodali, inclusi testo, immagini e video, offre una finestra di contesto fino a 256.000 token ed è stato progettato per operare in oltre 140 lingue.

Uno degli aspetti più interessanti riguarda l’efficienza hardware. Secondo Google, i modelli autoregressivi risultano spesso limitati dalla velocità di trasferimento dei dati dalla memoria verso le unità di calcolo della GPU. Questo fenomeno impedisce di sfruttare pienamente la potenza disponibile dei Tensor Core, che rimangono frequentemente inattivi in attesa dei dati necessari all’elaborazione. DiffusionGemma affronta il problema generando e raffinando gruppi di token in parallelo, aumentando l’utilizzo delle risorse computazionali e riducendo l’impatto dei colli di bottiglia legati alla memoria.

Nei test pubblicati dall’azienda, il modello supera i 1.000 token al secondo su una singola GPU NVIDIA H100 e supera i 700 token al secondo su una NVIDIA GeForce RTX 5090. Grazie alla quantizzazione, può inoltre funzionare con circa 18 GB di VRAM, rendendo possibile l’esecuzione anche su workstation e sistemi consumer di fascia alta.

L’architettura utilizza inoltre attenzione bidirezionale durante la generazione del testo. Ogni token può considerare contemporaneamente sia il contesto precedente sia quello successivo all’interno della sequenza in costruzione. Questa caratteristica risulta particolarmente utile per attività di editing documentale, completamento di codice, inserimento di contenuti mancanti e generazione di sequenze nelle quali la comprensione globale della struttura è più importante della semplice predizione sequenziale.

Google sottolinea comunque che DiffusionGemma deve essere considerato un progetto sperimentale. Il modello è stato ottimizzato principalmente per la velocità di generazione e per lo studio di nuovi paradigmi di inferenza, mentre la qualità complessiva dell’output rimane inferiore rispetto a quella ottenuta dall’attuale Gemma 4 autoregressivo. Per questo motivo l’azienda continua a raccomandare Gemma 4 negli scenari produttivi che richiedono la massima qualità del testo, mentre DiffusionGemma viene proposto come piattaforma di ricerca per esplorare una possibile nuova generazione di modelli linguistici ad alte prestazioni e bassa latenza.

Google presenta DiffusionGemma, un modello linguistico che genera testo tramite diffusione invece che token sequenziali

DiFantasy

Di Fantasy

Articoli correlati

Anthropic lancia Claude Opus 5 per ridurre il costo dei carichi di lavoro AI complessi

Un’interruzione globale colpisce ChatGPT, le API OpenAI e Codex

Google estende Gemini Spark agli abbonati AI Pro negli Stati Uniti

Ultimi Post

Anthropic lancia Claude Opus 5 per ridurre il costo dei carichi di lavoro AI complessi

Un’interruzione globale colpisce ChatGPT, le API OpenAI e Codex

Google estende Gemini Spark agli abbonati AI Pro negli Stati Uniti

Kimi K3 resta indietro nei test di attacco informatico autonomo