Al Google Cloud Next ’24, Google ha presentato un nuovo modello RecurrentGemma 2B, una famiglia di modelli linguistici a pesi aperti di Google DeepMind , basati sulla nuova architettura Griffin .
Questa architettura raggiunge un’inferenza rapida durante la generazione di lunghe sequenze sostituendo l’attenzione globale con una miscela di attenzione locale e ricorrenze lineari.
Google ha rilasciato un modello preaddestrato con parametri di non incorporamento 2B e una variante ottimizzata per le istruzioni. Entrambi i modelli raggiungono prestazioni paragonabili a Gemma-2B nonostante siano addestrati con meno token. RecurrentGemma-2B è pre-addestrato su token 2T, al contrario, Gemma-2B è stato pre-addestrato su token 3T.
Uno dei principali punti di forza di RecurrentGemma risiede nel suo ridotto ingombro di memoria. Questa funzionalità è particolarmente utile per generare campioni più lunghi su dispositivi con capacità di memoria limitate, comprese singole GPU e CPU.
Ottimizzando l’utilizzo della memoria, RecurrentGemma consente agli utenti di affrontare attività più complesse senza incontrare colli di bottiglia nella memoria. I miglioramenti in termini di efficienza di RecurrentGemma si estendono alle sue capacità di throughput. Grazie alle minori richieste di memoria, questo modello eccelle nell’esecuzione di attività di inferenza con batch di dimensioni maggiori.
Ciò si traduce in un aumento significativo della generazione di token al secondo, soprattutto quando si ha a che fare con sequenze lunghe. Tale throughput migliorato è un vantaggio per le attività che richiedono un’elaborazione dei dati rapida e continua.
Google ha anche rilasciato il codice JAX per valutare e mettere a punto RecurrentGemma, incluso un kernel Pallas specializzato per eseguire la ricorrenza lineare sulle TPU. Inoltre, l’azienda ha fornito un’implementazione PyTorch di riferimento.