Mixture‑of‑Recursions: Transformer che ricicla il suo stesso cervello per andare più lontano

DiFantasy

Lug 23, 2025

Nella narrazione comune, i modelli di linguaggio crescono impilando strati su strati, come grattacieli che sfondano la skyline. Mixture‑of‑Recursions, invece, somiglia più a una casa con poche stanze ma attraversate più volte, con percorsi diversi decisi al volo in base all’ospite che entra.

Il cuore dell’idea è semplice ed elegante: anziché avere decine di layer unici, si progettano pochi blocchi ricorrenti e si introduce un router leggerissimo capace di decidere, per ogni token, quante volte un blocco debba essere riutilizzato. Il risultato è che il modello “investe” più calcolo dove serve e taglia dove non è necessario, ottenendo un’inferenza che in alcune configurazioni corre quasi il doppio rispetto a un Transformer classico, con la stessa quantità di parametri effettivamente impiegati.

A questo si aggiunge un picco di memoria più basso, perché i pesi sono condivisi, e tempi di addestramento inferiori, dal momento che si ottimizza un numero ridotto di moduli che vengono usati in modo intelligente.

Questo approccio, nato dai laboratori del KAIST e del Mila, non chiede di buttare a mare l’eredità open source esistente: c’è persino un percorso pratico battezzato “uptraining” che consente di prendere un LLM già addestrato e dotarlo di ricorsioni senza ricominciare da zero.

La sfida tecnica sta nel far convivere l’eleganza teorica con i limiti pratici dell’hardware: token che seguono percorsi diversi possono creare divergenze nei thread GPU, la cache di chiavi e valori va gestita con attenzione per evitare sprechi, la profondità massima concessa deve essere scelta con parsimonia per non scivolare in quella stessa trappola di calcolo inutile che si voleva evitare.

Ma nell’epoca in cui le GPU non sono infinite e il costo per token comincia a pesare sui bilanci, un’architettura che introduce adattività nella profondità del pensiero diventa più di un esercizio accademico: è un’arma di efficienza. È la dimostrazione che il futuro dell’AI non sarà solo un conteggio a chi ha più parametri, ma anche una gara a chi sa orchestrare meglio quelli che ha.

Mixture‑of‑Recursions: Transformer che ricicla il suo stesso cervello per andare più lontano

DiFantasy

Di Fantasy

Articoli correlati

xAI lancia Grok 4.1

Google DeepMind presenta WeatherNext 2, l’AI che sbaraglia la simulazione, promettendo previsioni meteorologiche orarie con velocità e precisione impressionanti

PAN: dagli Emirati Arabi Uniti un nuovo modello mondiale open source che sfrutta la GenAI per la simulazione interattiva

Ultimi Post

xAI lancia Grok 4.1

Google DeepMind presenta WeatherNext 2, l’AI che sbaraglia la simulazione, promettendo previsioni meteorologiche orarie con velocità e precisione impressionanti

PAN: dagli Emirati Arabi Uniti un nuovo modello mondiale open source che sfrutta la GenAI per la simulazione interattiva

Data Center AI in evoluzione con l’integrazione NVLink di NVIDIA su piattaforma ARM