Dentro il cervello delle Intelligenze Artificiali: l’innovativa tecnica di Anthropic

DiFantasy

Mag 22, 2024

I modelli di intelligenza artificiale possono sembrare misteriosi perché producono risposte senza chiarire il “ragionamento” dietro di esse. Questo accade perché il loro funzionamento è radicalmente diverso dal nostro: elaborano grandi reti di neuroni collegati a vari concetti, rendendo difficile comprendere il loro processo di pensiero.

Tuttavia, per la prima volta, i ricercatori sono riusciti a scrutare il funzionamento interno di un’intelligenza artificiale. Il team di Anthropic ha svelato come utilizza una tecnica chiamata “apprendimento del dizionario” sul modello Claude Sonnet. Questo metodo consente di individuare i percorsi nel “cervello” del modello attivati da differenti argomenti, da persone e luoghi a concetti scientifici e astratti.

Interessante è il fatto che questi percorsi possono essere manipolati manualmente, permettendo ai ricercatori di influenzare il comportamento del modello. Ad esempio, hanno potuto far sì che Claude enfatizzasse particolari caratteristiche, come nel caso del Golden Gate Bridge, e ottenere risposte specifiche.

Questo lavoro è un passo importante verso la comprensione e il controllo delle intelligenze artificiali. Sebbene sia solo l’inizio e sia ancora limitato rispetto alla vastità delle intelligenze artificiali attuali, potrebbe portarci più vicini a modelli sui quali possiamo fare affidamento.

Con il continuo avanzamento delle intelligenze artificiali, i loro processi mentali diventano sempre più complessi, ma c’è il rischio che rimangano “scatole nere” per gli esseri umani. Tuttavia, Anthropic ha contribuito a rendere più comprensibile il pensiero delle intelligenze artificiali attraverso l’apprendimento del dizionario, permettendo di isolare modelli di attivazione neuronale in diversi contesti.

Manipolare queste caratteristiche offre una sorta di “controllo mentale” sull’intelligenza artificiale. Ad esempio, hanno potuto far sì che Claude diventasse quasi ossessionato dal Golden Gate Bridge e persino scrivesse e-mail truffaldine.

Questi esperimenti, tuttavia, non aggiungono capacità pericolose ai modelli; piuttosto, mirano a renderli più sicuri. Le tecniche utilizzate potrebbero essere impiegate per monitorare e rimuovere comportamenti rischiosi, contribuendo a sviluppare modelli di intelligenza artificiale più sicuri e affidabili.

Dentro il cervello delle Intelligenze Artificiali: l’innovativa tecnica di Anthropic

DiFantasy

Di Fantasy

Articoli correlati

Apple e il progetto ACDC per entrare nel settore del Cloud Computing

L’ascesa dell’AI nella ricerca: come ChatGPT sta trasformando il settore dell’informazione

Daniel Gross lascia SSI di Ilya Sutskever ed entra nel SuperIntelligence Lab di Meta

You missed

Apple e il progetto ACDC per entrare nel settore del Cloud Computing

L’ascesa dell’AI nella ricerca: come ChatGPT sta trasformando il settore dell’informazione

Daniel Gross lascia SSI di Ilya Sutskever ed entra nel SuperIntelligence Lab di Meta

Le aziende europee chiedono un rinvio dell’AI Act: preoccupazioni per la competitività e l’innovazione