Immagine AI

Nel giugno 2025, Google DeepMind ha presentato Gemini Diffusion, un modello sperimentale che adotta un approccio a diffusione per la generazione di testo. Questa innovazione rappresenta un significativo allontanamento dai tradizionali modelli autoregressivi, come GPT, e potrebbe segnare l’inizio di una nuova era nell’architettura dei modelli linguistici di grandi dimensioni (LLM).

I modelli autoregressivi generano il testo parola per parola, prevedendo ogni token in sequenza. Questo approccio garantisce coerenza e tracciamento del contesto, ma può risultare computazionalmente intensivo e lento, soprattutto per contenuti lunghi. Al contrario, i modelli a diffusione iniziano con rumore casuale e lo raffinano gradualmente in un output coerente. Questo processo consente di elaborare blocchi di testo in parallelo, aumentando significativamente la velocità di generazione e migliorando la coerenza e la consistenza del testo prodotto.

Durante l’addestramento, i modelli a diffusione corrompono progressivamente una frase con rumore attraverso molteplici passaggi, fino a renderla irriconoscibile. Il modello viene quindi addestrato a invertire questo processo, ricostruendo la frase originale da versioni progressivamente più rumorose. Questa tecnica consente al modello di apprendere una funzione di denoising affidabile, migliorando la qualità del testo generato.

I principali vantaggi dei modelli a diffusione includono:

  • Bassi tempi di latenza: possono produrre sequenze di token in tempi significativamente più brevi rispetto ai modelli autoregressivi.
  • Computazione adattiva: converge a sequenze di token a ritmi diversi a seconda della difficoltà del compito, ottimizzando l’uso delle risorse.
  • Ragionamento non causale: consente ai token di prestare attenzione ai token futuri all’interno dello stesso blocco di generazione, migliorando la coerenza del testo.
  • Raffinamento iterativo/autocorrezione: il processo di denoising permette di correggere errori durante la generazione, migliorando l’accuratezza.

Tuttavia, esistono anche alcuni svantaggi:

  • Maggiore costo di servizio: il modello richiede più risorse computazionali per l’elaborazione.
  • Tempo di generazione iniziale più lungo: il primo token può richiedere più tempo per essere generato rispetto ai modelli autoregressivi.

I benchmark mostrano che Gemini Diffusion offre prestazioni competitive in vari compiti, come la generazione di codice e la matematica, anche se modelli come Gemini 2.0 Flash-Lite eccellono in aree come il ragionamento, la conoscenza scientifica e le capacità multilingue.

I modelli a diffusione sono particolarmente adatti per applicazioni che richiedono tempi di risposta rapidi, come l’intelligenza artificiale conversazionale, la trascrizione e traduzione in tempo reale, e l’autocompletamento del codice. La capacità di correggere gli errori durante la generazione li rende ideali per compiti che richiedono alta precisione e coerenza.

Di Fantasy