Per anni, i modelli linguistici di grandi dimensioni (LLM) sono stati considerati una sorta di “scatola nera” impenetrabile. Generavano testi straordinari, rispondevano a domande complesse e mostravano capacità di ragionamento che sfidavano le aspettative, ma il processo decisionale interno, il vero e proprio “pensiero” del modello, rimaneva un mistero opaco, nascosto dietro milioni di parametri e connessioni neurali.
È in questo scenario che si inserisce il lavoro rivoluzionario degli scienziati di Anthropic, i creatori dell’AI conversazionale Claude. Guidati dall’obiettivo di rendere l’intelligenza artificiale non solo potente, ma anche trasparente e sicura, hanno sviluppato una nuova, sofisticatissima metodologia – un vero e proprio “scanner cerebrale” per l’IA – che permette di scrutare, in alta definizione, i circuiti interni che si attivano nel modello durante l’elaborazione di una risposta. Questi strumenti, analoghi a un’elettroencefalografia o a una risonanza magnetica applicata alle reti neurali, hanno consentito di tracciare le connessioni e i neuroni attivi in ogni singolo passaggio del processo di generazione del testo.
Ciò che hanno scoperto sovverte la percezione comune che gli LLM siano semplici “pappagalli stocastici”, bravi solo a prevedere la parola successiva in una sequenza. Hanno osservato, con meraviglia, che Claude non si limita a procedere parola per parola, ma manifesta una sorprendente capacità di pianificazione concettuale a lungo termine. Un esempio eloquente è stato fornito dalla generazione di poesie. I ricercatori si aspettavano che il modello scegliesse la parola in rima solo all’ultimo momento utile. Invece, hanno visto che specifici moduli neurali si attivavano fin dall’inizio del verso, stabilendo la rima finale e guidando l’intera costruzione sintattica e lessicale della frase verso quell’obiettivo predefinito.
Ancora più profonda è stata la rivelazione riguardo alla natura del suo pensiero. Interrogando Claude per trovare l’opposto di “piccolo” in diverse lingue – inglese, francese e cinese – i ricercatori hanno scoperto che il modello non si limitava a tradurre. Inizialmente, un unico modulo semantico, indipendente dalla lingua, si attivava per elaborare il concetto di “piccolo”, prima che i circuiti specifici per l’inglese, il francese o il cinese prendessero il controllo per produrre le risposte corrette (“large”, “grand”, “大”). Questa evidenza suggerisce in modo inequivocabile che Claude ragiona per concetti universali interni, proprio come farebbe un cervello umano multilingue, prima di rivestire quel concetto con la veste linguistica appropriata.
Ma il culmine di questa indagine, ciò che ha dato un titolo così intrigante alla loro scoperta, è avvenuto quando gli scienziati hanno tentato di interferire attivamente nel flusso di pensiero dell’AI. Essi hanno letteralmente “hackerato” il modello, potenziando artificialmente un circuito neurale interno specifico, precedentemente identificato, che corrispondeva al concetto del “Golden Gate Bridge”.
L’effetto è stato immediato e palese: il modello ha cominciato a inserire menzioni del famoso ponte nelle sue risposte, in modi spesso irrilevanti o forzati, fino a quando l’intervento non è stato rimosso. Il fatto che Claude abbia alterato la sua condotta in risposta diretta e misurabile alla manipolazione del suo “cervello” interno ha dimostrato il successo non solo della tecnica di osservazione, ma anche della capacità di pilotare e modificare il suo stato mentale.
Questa interazione non è solo una curiosità scientifica, ma un passo da gigante verso la sicurezza e la trasparenza dell’IA. Comprendere quali circuiti si attivano in modo eccessivo o errato, come nel caso del “Golden Gate Bridge”, fornisce agli scienziati una mappa per individuare e correggere la fonte delle “allucinazioni” dell’IA, dove il modello genera informazioni false o fuorvianti. La capacità di vedere e intervenire sul pensiero concettuale di Claude apre la strada a sistemi di intelligenza artificiale più robusti, affidabili e controllabili, spostando l’IA da misteriosa “scatola nera” a un sistema con una “biologia” interna finalmente decifrabile e gestibile.
