I modelli linguistici di grandi dimensioni (LLM) sono diventati straordinari nel generare testi, tradurre lingue e creare contenuti creativi. Tuttavia, comprendere come funzionano questi modelli è una sfida, anche per i ricercatori che li sviluppano. Questa mancanza di chiarezza può essere problematica per applicazioni critiche che richiedono alta precisione e trasparenza.
Per affrontare questa problematica, Google DeepMind ha lanciato Gemma Scope, un nuovo set di strumenti progettato per far luce sui processi decisionali dei modelli Gemma 2. Gemma Scope utilizza autoencoder sparsi (SAE) JumpReLU, un’architettura di apprendimento profondo sviluppata da DeepMind.
Quando un LLM riceve un input, lo elabora attraverso una rete complessa di neuroni artificiali. I valori prodotti da questi neuroni, chiamati “attivazioni”, rappresentano la comprensione dell’input da parte del modello e guidano la sua risposta. Studiando queste attivazioni, i ricercatori possono scoprire come i modelli elaborano le informazioni e prendono decisioni.
Interpretare le attivazioni è complesso perché gli LLM hanno miliardi di neuroni e ogni inferenza genera una grande quantità di dati. Ogni concetto può attivare milioni di neuroni in vari livelli del modello, rendendo difficile capire quali neuroni corrispondano a specifici concetti.
Per migliorare l’interpretabilità, i SAE sono utilizzati per analizzare le attivazioni in diversi strati del modello. Questi modelli cercano di rappresentare le attivazioni con un set ridotto di caratteristiche, facilitando la comprensione di come le attivazioni influenzano le decisioni del modello.
La nuova architettura JumpReLU supera alcune limitazioni delle architetture precedenti. Mentre le architetture SAE tradizionali utilizzano una funzione di unità lineare rettificata (ReLU) che azzera valori di attivazione sotto una certa soglia, JumpReLU consente di apprendere una soglia diversa per ogni caratteristica. Questo migliora la capacità del SAE di identificare e valutare le caratteristiche senza perdere informazioni importanti.
Gemma Scope include oltre 400 SAE e rappresenta più di 30 milioni di caratteristiche dei modelli Gemma 2. Questo permetterà ai ricercatori di analizzare come le caratteristiche si evolvono e interagiscono attraverso i diversi livelli dell’LLM, offrendo una comprensione più profonda del processo decisionale del modello.
DeepMind ha reso Gemma Scope disponibile su Hugging Face, permettendo ai ricercatori di usarlo per studi più dettagliati sull’interpretabilità degli LLM. Questo potrebbe aiutare a costruire sistemi più robusti, migliorare la sicurezza dei modelli contro comportamenti indesiderati e affrontare i rischi legati agli agenti AI autonomi.
Man mano che i LLM vengono adottati sempre più nelle applicazioni aziendali, strumenti come Gemma Scope sono cruciali per comprendere e controllare il comportamento di questi modelli. SAE e tecniche simili possono aiutare a scoprire e prevenire comportamenti problematici, come la generazione di contenuti dannosi o parziali.
Altri laboratori di intelligenza artificiale, come Anthropic e OpenAI, stanno sviluppando tecniche simili. OpenAI, ad esempio, ha recentemente introdotto una tecnica per verificare le risposte dei modelli attraverso un processo gamificato, che incoraggia la produzione di risposte verificabili e comprensibili.