Negli ultimi anni, i modelli linguistici di grandi dimensioni (LLM) hanno fatto enormi progressi. Tuttavia, capire come funzionano rimane una sfida, e gli scienziati stanno cercando di “sbirciare” all’interno di questi modelli complessi.
Una soluzione promettente è l’Autoencoder Sparso (SAE), un tipo di rete neurale che semplifica le attivazioni complesse di un modello in componenti più piccole e comprensibili, associate a concetti umani. Recentemente, i ricercatori di Google DeepMind hanno presentato JumpReLU SAE, una nuova architettura che migliora sia le prestazioni sia l’interpretabilità degli SAE per gli LLM. JumpReLU facilita l’identificazione e il tracciamento delle caratteristiche nelle attivazioni degli LLM, avvicinandoci alla comprensione del loro apprendimento e ragionamento.
In una rete neurale, i neuroni sono piccole unità matematiche che elaborano e trasformano i dati. Durante l’addestramento, questi neuroni si sintonizzano per attivarsi quando riconoscono determinati pattern. Tuttavia, ogni neurone non rappresenta necessariamente un concetto specifico; potrebbe attivarsi per molti concetti diversi e un concetto potrebbe attivare diversi neuroni. Questo rende difficile capire cosa fa ogni neurone e come contribuisce al comportamento complessivo del modello, specialmente negli LLM che hanno miliardi di parametri e set di dati enormi.
Gli autoencoder sono reti neurali che apprendono a trasformare un input in una rappresentazione intermedia e poi a ricostruirlo. Gli Autoencoder Sparsi (SAE) modificano questo processo forzando l’attivazione di un numero ridotto di neuroni nella rappresentazione intermedia. Questo aiuta a comprimere le attivazioni in un numero minore di neuroni, facilitando l’interpretazione.
La sfida per gli SAE è bilanciare la scarsità delle attivazioni e la fedeltà della ricostruzione. Se l’autoencoder è troppo scarso, non cattura tutte le informazioni necessarie. Se non è abbastanza scarso, diventa difficile da interpretare. Gli SAE usano una “funzione di attivazione” per gestire la scarsità nel loro strato intermedio. La funzione ReLU, usata negli SAE originali, azzera le attivazioni sotto una certa soglia, ma potrebbe mantenere feature irrilevanti. JumpReLU SAE di DeepMind supera questa limitazione utilizzando soglie dinamiche per ogni neurone, migliorando l’equilibrio tra scarsità e fedeltà.
I ricercatori hanno testato JumpReLU SAE sul modello Gemma 2 9B di DeepMind e hanno confrontato i risultati con altre architetture SAE, come Gated SAE e TopK SAE. I risultati mostrano che JumpReLU SAE offre una maggiore fedeltà nella ricostruzione e una migliore interpretabilità delle caratteristiche rispetto alle architetture precedenti. È stato anche più efficiente da addestrare, rendendolo pratico per l’uso con modelli di grandi dimensioni.
Gli SAE possono aiutare a scomporre le attivazioni degli LLM in modo più preciso, permettendo ai ricercatori di comprendere meglio come i modelli elaborano e generano il linguaggio. Questo può portare a tecniche per indirizzare il comportamento degli LLM e ridurre problemi come pregiudizi e contenuti dannosi. Ad esempio, recenti studi hanno dimostrato che gli SAE possono identificare caratteristiche specifiche legate a testi e immagini, migliorando la sicurezza e la personalizzazione delle risposte dei modelli.