Immagine AI

L’evoluzione dell’intelligenza artificiale ha portato alla creazione di modelli sempre più complessi e performanti, ma allo stesso tempo sempre più difficili da comprendere nella loro struttura profonda. Per lungo tempo, questi sistemi sono stati considerati delle scatole nere, entità capaci di fornire risposte straordinarie senza che i ricercatori potessero spiegare con esattezza cosa accadesse tra l’inserimento di una domanda e la generazione della risposta. In questo contesto si inserisce la recente iniziativa di Google DeepMind, che ha presentato uno strumento innovativo denominato Gemma Scope 2. Si tratta di una suite progettata per monitorare e decodificare il funzionamento di Gemma 3, l’ultimo modello open source di punta dell’azienda, segnando un passaggio fondamentale dalla teoria alla pratica nel campo della trasparenza tecnologica.

L’aspetto più rilevante di questa operazione è la possibilità offerta ai team di sicurezza e agli esperti di allineamento dell’IA di superare il limite della semplice analisi dell’input e dell’output. Invece di limitarsi a osservare cosa il modello dice, oggi è possibile osservare perché lo dice, risalendo alle funzioni interne che determinano un comportamento specifico. Questa capacità di analisi diventa cruciale quando si affrontano problemi critici come le allucinazioni, ovvero i casi in cui l’intelligenza artificiale inventa informazioni false con estrema sicurezza, o quando il sistema si blocca o assume atteggiamenti indesiderati. Gemma Scope 2 permette di visualizzare quali meccanismi interni si attivano in questi momenti e come i segnali si propagano attraverso l’intera rete neurale.

Alla base di questa tecnologia troviamo un concetto raffinato, quello del JumpReLU Sparse Autoencoder. Un autoencoder è essenzialmente una rete neurale programmata per imparare a comprimere un’informazione in una forma intermedia per poi ricostruirla fedelmente. La variante utilizzata da Google è definita sparsa perché costringe il sistema ad attivare solo un numero limitato di neuroni durante la fase di elaborazione. Questo processo permette di semplificare un’enorme massa di dati complessi in un insieme di caratteristiche rare e isolate, che corrispondono a concetti o comportamenti che noi esseri umani siamo in grado di interpretare agevolmente. È un po’ come utilizzare un microscopio digitale ad altissima risoluzione che, invece di mostrare una massa informe di dati, estrae e isola i singoli elementi logici che guidano il pensiero della macchina.

Il progetto non si limita a un solo modello, ma copre l’intera famiglia di Gemma 3, dai parametri più piccoli fino alle versioni più massicce da 27 miliardi di parametri. Questa capillarità consente di studiare comportamenti complessi che solitamente emergono solo nei sistemi più grandi, offrendo una visione d’insieme senza precedenti. Un’innovazione tecnica significativa introdotta in questa versione è il transcodificatore presente in ogni livello della rete. Grazie a questo elemento, i ricercatori possono tracciare come le informazioni scomposte inizialmente si muovano e si trasformino attraverso i vari passaggi del calcolo, permettendo di capire, ad esempio, come il modello riesca a identificare un’e-mail fraudolenta o come possa cadere in un tentativo di manipolazione esterna.

Per raggiungere questo livello di precisione, Google ha dovuto affrontare una sfida monumentale in termini di gestione dati. La quantità di informazioni generate dalle attività interne dei modelli durante l’addestramento di Gemma Scope 2 ha toccato la cifra astronomica di 110 petabyte. Questa mole enorme di dati è stata necessaria per costruire un modello interpretativo che conta oltre un trilione di parametri, un vero e proprio gigante dedicato esclusivamente alla comprensione di un altro sistema. Questo dettaglio sottolinea quanto sia diventato oneroso, sia in termini computazionali che economici, il lavoro necessario per garantire la sicurezza e l’affidabilità delle moderne intelligenze artificiali.

Inoltre, per migliorare l’affidabilità dello strumento, è stata applicata la cosiddetta tecnica Matrioska, che permette al sistema di apprendere contemporaneamente diverse dimensioni delle caratteristiche, rendendo l’analisi ancora più flessibile e precisa. Con la decisione di rendere questo toolkit totalmente open source e accessibile tramite piattaforme come Hugging Face, Google ha voluto dare un segnale forte alla comunità scientifica. L’obiettivo dichiarato è quello di fornire strumenti all’avanguardia che permettano a chiunque lavori nel settore della sicurezza di risolvere i problemi reali legati ai grandi modelli linguistici avanzati. Si tratta di un passo avanti verso un futuro in cui l’intelligenza artificiale non sarà più un mistero impenetrabile, ma uno strumento trasparente e verificabile.

Di Fantasy