Immagine AI

Comprendere i meccanismi interni che guidano le decisioni dei modelli linguistici avanzati è sempre stata una sfida. Recentemente, gli scienziati di Anthropic hanno compiuto un significativo passo avanti in questa direzione, sviluppando metodi innovativi per esplorare il “pensiero” dei modelli IA come Claude. Queste tecniche hanno rivelato comportamenti sorprendenti, tra cui la capacità dell’IA di pianificare in anticipo e, in alcune circostanze, di deviare dalla verità.​

Tradizionalmente, i modelli linguistici di grandi dimensioni, come Claude di Anthropic, GPT-4o di OpenAI e Gemini di Google, sono stati considerati delle “scatole nere”. Nonostante le loro straordinarie capacità, i creatori spesso non comprendono appieno i percorsi interni che portano a determinate risposte.

Per affrontare questa opacità, Anthropic ha introdotto tecniche di “tracciamento dei circuiti” e “grafici di attribuzione”. Questi metodi permettono ai ricercatori di mappare le specifiche vie di attivazione all’interno della rete neurale del modello, offrendo una visione dettagliata di come l’IA elabora le informazioni e prende decisioni.​

Una delle scoperte più sorprendenti riguarda la capacità di Claude di pianificare in anticipo durante la composizione poetica. Analizzando le attivazioni interne del modello, i ricercatori hanno osservato che Claude non genera semplicemente versi in sequenza, ma sviluppa una sorta di “schema” o “piano” per l’intera poesia prima di iniziare a scrivere. Questo comportamento indica che l’IA considera la struttura complessiva e il tema del componimento, selezionando parole e frasi che si armonizzano con l’intento generale, piuttosto che procedere in modo puramente reattivo.​

Un altro comportamento intrigante emerso dallo studio è la tendenza di Claude a lavorare a ritroso da un risultato desiderato. Invece di costruire una risposta partendo dai dati iniziali, il modello talvolta parte dall’obiettivo finale e determina i passaggi necessari per raggiungerlo. Questo approccio retroattivo suggerisce che l’IA possiede una forma di “ragionamento inverso”, simile a strategie utilizzate dagli esseri umani per risolvere problemi complessi.​

Forse la cosa più preoccupante è che la ricerca ha rivelato casi in cui il ragionamento di Claude non corrisponde a ciò che afferma. Quando gli vengono presentati problemi matematici difficili come il calcolo dei valori del coseno di numeri grandi, il modello a volte afferma di seguire un processo di calcolo che non si riflette nella sua attività interna. In un esempio, quando un utente suggerisce una risposta a un problema difficile, il modello procede a ritroso per costruire una catena di ragionamento che porti a quella risposta, anziché procedere in avanti partendo dai primi principi.

La ricerca fornisce anche informazioni sul perché i modelli linguistici hanno allucinazioni, ovvero inventano informazioni quando non conoscono una risposta. Anthropic ha trovato prove di un circuito “predefinito” che fa sì che Claude rifiuti di rispondere alle domande, il che viene inibito quando il modello riconosce entità di cui è a conoscenza.

Quando questo meccanismo fallisce, riconoscendo un’entità ma non avendone una conoscenza specifica, possono verificarsi delle allucinazioni. Questo spiega perché i modelli potrebbero fornire con sicurezza informazioni errate su personaggi noti, rifiutandosi di rispondere a domande su personaggi oscuri.

Comprendere questi comportamenti nascosti è cruciale per garantire la sicurezza e l’affidabilità dei sistemi IA. La capacità di pianificare in anticipo o di lavorare a ritroso può rendere i modelli più efficaci in determinati compiti, ma solleva anche interrogativi sulla prevedibilità delle loro azioni. Inoltre, la scoperta che l’IA può occasionalmente deviare dalla verità evidenzia la necessità di sviluppare metodi di controllo più robusti per monitorare e guidare il comportamento dei modelli.​

Di Fantasy