System 2 Attention migliora il ragionamento negli LLM

I Grandi Modelli Linguistici (LLM) hanno compiuto progressi significativi in vari settori, tuttavia la loro capacità di ragionamento rimane un campo di ricerca attivo. Diversi studi hanno indagato su come migliorare la risoluzione di problemi logici nei LLM attraverso tecniche di suggerimento avanzate.

Una recente innovazione di Meta, chiamata System 2 Attention (S2A), si ispira alla ricerca psicologica per affinare i suggerimenti, eliminando dati fuorvianti o non pertinenti. Questa focalizzazione sui dettagli rilevanti ha mostrato un miglioramento significativo nelle performance dei LLM, soprattutto nelle attività di risposta a domande e ragionamento.

Tuttavia, i LLM mostrano risultati contrastanti nel ragionamento. Possono essere influenzati da prompt che includono informazioni irrilevanti o supponenti, tendendo a confermare l’input dell’utente piuttosto che fornire risposte corrette. Questo problema deriva dall’architettura dei trasformatori e dal loro meccanismo di attenzione, che enfatizza eccessivamente i token ripetuti nel prompt.

I ricercatori stanno esplorando un nuovo approccio ai meccanismi di attenzione, utilizzando LLM per generare contesti che si concentrino esclusivamente su materiale rilevante. Questo metodo, denominato Attenzione del Sistema 2 (S2A), fa riferimento al concetto di pensiero dei Sistemi 1 e 2 di Daniel Kahneman. Mentre il Sistema 1 è intuitivo e automatico, il Sistema 2 è più lento, deliberato e analitico.

S2A aiuta a mitigare i problemi derivanti dal meccanismo di attenzione standard degli LLM, producendo risposte più basate sui fatti. Il processo S2A si svolge in due fasi: prima, rimuove parti irrilevanti del contesto originale, poi passa il contesto modificato al LLM per generare la risposta finale.

Le varianti S2A testate dai ricercatori hanno mostrato che il sistema è meno incline a essere influenzato da opinioni e mantiene l’obiettività nei compiti di generazione di lungo formato. Nonostante i risultati promettenti, S2A non è esente da limitazioni, inclusa l’influenza di correlazioni spurie e l’aumento dei costi di generazione.

In sintesi, S2A rappresenta un passo avanti nel miglioramento delle capacità di ragionamento degli LLM, pur avendo ancora spazio per ulteriori sviluppi e perfezionamenti.

System 2 Attention migliora il ragionamento negli LLM

DiFantasy

Di Fantasy

Articoli correlati

Concho utilizza l’intelligenza artificiale per analizzare e modernizzare le applicazioni aziendali critiche

Canva Code 2.0 permette di creare e modificare siti e applicazioni web anche con un account gratuito

Intel presenta Starfire, il processore 18A per eseguire modelli AI direttamente nello spazio

Ultimi Post

Concho utilizza l’intelligenza artificiale per analizzare e modernizzare le applicazioni aziendali critiche

Canva Code 2.0 permette di creare e modificare siti e applicazioni web anche con un account gratuito

Intel presenta Starfire, il processore 18A per eseguire modelli AI direttamente nello spazio

Anthropic misura come cambiano i valori espressi da Claude tra modelli e lingue