I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato di essere molto abili in vari compiti di ragionamento e risoluzione dei problemi. Tuttavia, un nuovo studio rivela che questi modelli eccellono nel ragionamento induttivo ma faticano con il ragionamento deduttivo.
Il ragionamento induttivo è un processo “bottom-up” che si basa sull’osservazione di esempi specifici per trarre conclusioni generali. Ad esempio, osservando diverse temperature in gradi Celsius e Fahrenheit, possiamo cercare di dedurre la formula di conversione.
Al contrario, il ragionamento deduttivo è un processo “top-down” che applica regole generali a casi specifici. Ad esempio, utilizzando una formula matematica conosciuta per calcolare nuove misurazioni.
I ricercatori dell’Università della California, Los Angeles e Amazon hanno condotto uno studio per valutare le capacità di ragionamento degli LLM, utilizzando un framework chiamato SolverLearner. Questo framework analizza separatamente il ragionamento induttivo e deduttivo.
SolverLearner chiede inizialmente all’LLM di generare una funzione matematica basata su esempi specifici (ragionamento induttivo). Successivamente, un interprete esterno esegue la funzione su nuovi dati per verificare se l’LLM ha appreso correttamente il pattern (senza coinvolgere il ragionamento deduttivo dell’LLM).
Lo studio ha mostrato che gli LLM, come GPT-3.5 e GPT-4, sono molto bravi nel ragionamento induttivo. Possono identificare e applicare pattern dai dati con alta precisione. Tuttavia, hanno difficoltà nel seguire istruzioni specifiche o regole quando si tratta di scenari non comuni o di compiti “controfattuali” (situazioni che non seguono gli schemi abituali).
Ad esempio, sebbene gli LLM possano risolvere operazioni aritmetiche in base 10 con facilità, incontrano difficoltà con basi numeriche meno familiari, come la base 11 o 9.
I risultati indicano che gli LLM sono più abili a identificare pattern attraverso esempi piuttosto che a seguire regole esplicite. Questo suggerisce che mentre gli LLM possono sembrare competenti nel seguire istruzioni logiche, potrebbero semplicemente riprodurre pattern appresi durante l’addestramento. Pertanto, le loro prestazioni possono calare quando affrontano nuovi scenari non inclusi nei dati di formazione.
SolverLearner offre un modo per valutare accuratamente il ragionamento induttivo degli LLM, ma è applicabile solo in contesti dove è disponibile un interprete di codice. Questo studio sottolinea che c’è ancora molto da scoprire sulle capacità di questi modelli complessi, che sono sempre più utilizzati in vari ambiti.