Recentemente, i ricercatori di Sakana AI, una startup con sede a Tokyo, hanno introdotto una tecnica innovativa denominata “universal transformer memory”. Questa metodologia consente ai modelli linguistici di utilizzare la memoria in modo più efficiente, permettendo alle aziende di ridurre significativamente i costi associati allo sviluppo di applicazioni basate su modelli di linguaggio di grandi dimensioni (LLM) e altre architetture Transformer.

I modelli Transformer, che costituiscono la spina dorsale degli LLM, generano risposte basate sul contenuto della loro “finestra di contesto”, ovvero l’input ricevuto dagli utenti. Questa finestra di contesto può essere considerata come la memoria di lavoro del modello. Modificare il contenuto di questa finestra può influenzare notevolmente le prestazioni del modello, dando origine a un intero campo di studio noto come “prompt engineering”.

Attualmente, i modelli supportano finestre di contesto molto estese, contenenti centinaia di migliaia o addirittura milioni di token. Ciò consente agli utenti di inserire una quantità maggiore di informazioni nei loro prompt. Tuttavia, prompt più lunghi comportano costi computazionali più elevati e prestazioni più lente. Ottimizzare i prompt per rimuovere i token non necessari, mantenendo al contempo le informazioni importanti, può ridurre i costi e aumentare la velocità.

Le tecniche attuali di ottimizzazione dei prompt sono spesso dispendiose in termini di risorse o richiedono agli utenti di testare manualmente diverse configurazioni per ridurre la dimensione dei loro prompt.

La “universal transformer memory” affronta questa sfida utilizzando moduli di memoria neurale attentiva (NAMM), reti neurali semplici che decidono se “ricordare” o “dimenticare” ciascun token presente nella memoria dell’LLM. Questa nuova capacità consente ai Transformer di scartare dettagli inutili o ridondanti e di concentrarsi sulle informazioni più critiche, un aspetto cruciale per compiti che richiedono ragionamenti su lunghi contesti.

I NAMM vengono addestrati separatamente dall’LLM e combinati con il modello pre-addestrato durante la fase di inferenza, rendendoli flessibili e facili da implementare. Tuttavia, necessitano di accesso alle attivazioni interne del modello, il che significa che possono essere applicati solo a modelli open-source.

Analogamente ad altre tecniche sviluppate da Sakana AI, i NAMM vengono addestrati attraverso l’auto-supervisione, utilizzando dati generati dal modello stesso. Questo approccio consente di creare modelli di memoria efficaci senza la necessità di costosi set di dati annotati manualmente.

Di Fantasy