Quando i chatbot basati su LLM falliscono in compiti semplici

Recentemente, un documento del MIT ha sollevato la questione dell’affidabilità di GPT-4, affermando che aveva ottenuto il 100% nel curriculum del MIT. Tuttavia, ulteriori indagini hanno rivelato che ciò era dovuto a domande incomplete e metodi di valutazione distorti, che hanno portato a una significativa riduzione dell’accuratezza del modello e invalidato il documento. È emerso che molti ricercatori hanno iniziato a pubblicare articoli su modelli di linguaggio basati su LLM (Large Language Models), come ChatGPT, che hanno superato test medici e di abilitazione statunitensi. Tuttavia, quando a questi chatbot basati su LLM vengono posti problemi di matematica elementare o compiti semplici come scrivere parole al contrario, ottengono risultati deludenti. Tutti i modelli LLM, inclusi GPT-3.5, GPT-4, LLaMA e PaLM 2, si sono dimostrati inefficaci in questi compiti di facile soluzione.

La maggior parte dei documenti pubblicati di recente sembra essere priva di sostanza. Tuttavia, un documento intitolato “Faith and Fate: Limits of Transformers on Compositionality” dell’Allen Institute for AI sembra essere un’eccezione. Scritto da ricercatori delle università di Washington, della California meridionale e di Chicago, il documento esamina i limiti fondamentali dei modelli di linguaggio basati su trasformatori, concentrandosi sui problemi che richiedono un ragionamento in più fasi. Lo studio analizza tre compiti compositivi rappresentativi: moltiplicazione a lunga, enigmi con griglie logiche (come l’enigma di Einstein) e un classico problema di programmazione dinamica.

Secondo un documento di ricerca di Microsoft intitolato “Sparks of AGI: Early experiments with GPT-4”, questi modelli di linguaggio rappresentano una prima versione dell’intelligenza artificiale generale (AGI). Tuttavia, la comunità scientifica sembra divisa sulle vere capacità dei modelli LLM, ma questo documento contribuirà a far luce sul loro funzionamento effettivo.

Per comprendere meglio come i modelli LLM si confrontino con i processi di pensiero umano, i ricercatori hanno utilizzato una struttura a grafo. In questo approccio, le abilità umane di risoluzione dei problemi possono essere rappresentate come un grafo, in cui ogni nodo rappresenta una soluzione parziale e gli archi indicano operatori che modificano tali soluzioni. Questo framework concettuale fornisce una base per comprendere le capacità di ragionamento dei trasformatori.

I ricercatori hanno quindi testato i modelli di linguaggio popolari, come ChatGPT, GPT-3 e GPT-4, su compiti compositivi a più passaggi. Hanno scoperto che, nonostante l’utilizzo di zero-shot learning, few-shot learning e fine-tuning, i modelli a base di trasformatori mostrano una riduzione delle prestazioni all’aumentare della complessità dei compiti. Anche se il fine-tuning con dati specifici del compito migliora le prestazioni all’interno del dominio di addestramento, non riesce a generalizzare ad esempi non visti. Anche l’addestramento esplicito con “scratchpad” non consente ai modelli di apprendere efficacemente le operazioni dei componenti.

La natura autoregressiva dei trasformatori rappresenta una sfida fondamentale per la comprensione completa dei compiti. Questi risultati mettono in evidenza l’urgente necessità di progressi nell’architettura dei trasformatori e nei metodi di addestramento.

Secondo Yan LeCun, chief data scientist di Meta, “i modelli di linguaggio autoregressivi dei trasformatori si allontanano esponenzialmente dalle risposte corrette”. Quando si genera una risposta utilizzando questi modelli, la probabilità che ogni parola generata sia corretta diminuisce esponenzialmente. Questo accade perché gli errori si accumulano man mano che vengono generate più parole.

L’apprendimento rinforzato attraverso il feedback umano può ridurre la probabilità di errori, ma non risolve completamente il problema dell’autoregressività nel processo di generazione dei token. L’eliminazione completa del problema non sembra possibile poiché ogni token viene generato sulla base di token precedenti.

I trasformatori eccellono nel ragionamento a un solo passaggio, ma trovano difficoltà nell’estendere le proprie capacità a scenari più complessi. Tuttavia, i ricercatori menzionano alcuni metodi di allenamento che potrebbero aiutare i modelli LLM a superare questa sfida apparentemente insormontabile.

I ricercatori hanno sperimentato diversi approcci per migliorare le prestazioni dei trasformatori nei compiti compositivi, come il fine-tuning dei modelli o l’insegnamento di passaggi di ragionamento espliciti. Tuttavia, questi approcci non hanno raggiunto un’accuratezza del 100%, soprattutto in contesti al di fuori del dominio in cui i modelli si confrontano con nuovi tipi di problemi.

A volte i trasformatori producono risposte parzialmente corrette, anche se la risposta complessiva è errata, perché apprendono modelli specifici all’interno della distribuzione dei compiti. Questo permette loro di fare ipotesi senza comprendere appieno i requisiti del compito. Il concetto di “informazione relativa” aiuta a prevedere tali modelli che i trasformatori probabilmente apprenderanno.

Il problema principale è che i trasformatori tendono a semplificare il ragionamento a più passaggi in sottografi linearizzati, basandosi sulla corrispondenza di modelli anziché su un ragionamento completo. Ciò si traduce in prestazioni scadenti nelle attività che richiedono pianificazione e l’introduzione di più passaggi per un ragionamento corretto. È evidente che i trasformatori spesso memorizzano operazioni specifiche durante l’addestramento, producendo risultati corretti nonostante calcoli errati.

Nonostante i Transformer siano potenti modelli di linguaggio, mostrano limiti nella capacità di eseguire complessi ragionamenti compositivi. La loro dipendenza da schemi, memorizzazione e operazioni in un solo passaggio ostacola l’efficacia nell’affrontare compiti impegnativi.

Il documento di ricerca sottolinea l’importanza di sviluppare ulteriormente l’architettura dei trasformatori e i metodi di addestramento per affrontare queste limitazioni e consentire scoperte future nel ragionamento compositivo. Un’ulteriore esplorazione in questo campo è fondamentale per sbloccare il pieno potenziale dell’AGI.

Quando i chatbot basati su LLM falliscono in compiti semplici

DiFantasy

Di Fantasy

Articoli correlati

Ampere collabora con Qualcomm per sviluppare chip di inferenza AI per data center

Sony Music minaccia azioni legali contro aziende AI per l’uso non autorizzato di musica

Stability AI pensa di vendere?

You missed

Ampere collabora con Qualcomm per sviluppare chip di inferenza AI per data center

Sony Music minaccia azioni legali contro aziende AI per l’uso non autorizzato di musica

Stability AI pensa di vendere?

Galaxy Tab vs iPad: Samsung risponde al video Crush di Apple con UnCrush