Con l’avvento di modelli più piccoli come LLaMA e Falcon, che in alcuni casi si comportano in modo simile a GPT-4 o PaLM, la conversazione si è spostata dall’aumento del numero di parametri al numero di token di contesto o alla lunghezza del contesto in questi modelli.
La lunghezza del contesto è fondamentale per un Linguistic Language Model (LLM) poiché richiede una chiara comprensione dell’intero contesto in cui viene posta una domanda, al fine di fornire una risposta accurata. Spesso le persone hanno l’idea che un input più lungo produca un output perfetto, ma non è così. Ad esempio, se si inserisce un articolo di 2000 parole in ChatGPT, il modello può iniziare a dare senso fino a un certo punto, generalmente intorno alle 700-800 parole, dopodiché può avere delle “allucinazioni”. Questo è un fatto.
Questo processo è simile al funzionamento della memoria a breve termine negli esseri umani. Ma è veramente vero che la lunghezza del contesto sia tutto ciò che conta? Prendiamo ad esempio l’ascolto di una storia o la visione di un film: nella maggior parte dei casi, le persone ricordano meglio l’inizio e la fine, mentre la parte centrale ha meno valore. Jim Fan di NVIDIA AI, titolare di un dottorato di ricerca a Stanford, spiega che gli LLM stanno attraversando una situazione simile.
Nel suo tweet, Fan si basa su un recente articolo dei ricercatori di Stanford intitolato “Lost in the Middle: How Language Models Use Long Contexts”. Egli sostiene che affermazioni come “un milione o un miliardo di token” non siano utili per migliorare gli LLM. Fan afferma: “Quello che conta veramente è quanto bene il modello utilizzi effettivamente il contesto. È facile fare affermazioni apparentemente assurde, ma molto più difficile risolvere meglio i problemi reali”.
L’articolo di Stanford spiega come i modelli siano bravi a preservare le informazioni presenti all’inizio e alla fine del contesto, ma non quelle nel mezzo. Questo vale per tutti gli LLM attualmente in sviluppo, inclusi GPT, PaLM e Flan-T5. Inoltre, anche i modelli con un contesto nativamente più lungo non riescono a utilizzare meglio il contesto. Nel documento, i ricercatori dimostrano come le due versioni di GPT-3.5, una con 4k di token e l’altra con un contesto di 16k di token, abbiano risultati simili, e le prestazioni diminuiscano man mano che il contesto si allunga.
Ahmed M del Computer Research Institute di Montreal aggiunge che questo potrebbe essere dovuto agli esempi di addestramento e al problema dei dati di input. La maggior parte di questi modelli viene addestrata su dati Internet, come articoli di notizie, che mettono in evidenza le informazioni più importanti all’inizio e alla fine. Di conseguenza, gli output degli LLM riflettono questa stessa struttura.
Da quando i Transformers sono stati introdotti con l’articolo “Attention is All You Need”, la lunghezza del contesto è stata oggetto di discussioni in ogni versione degli LLM. Si è sempre ritenuto che un aumento della lunghezza della sequenza portasse a una maggiore precisione dei modelli. Tuttavia, come accade agli esseri umani che dimenticano metà della storia a metà, gli LLM mostrano capacità simili o forse un’incapacità simile.
Una cosa è certa: nella corsa per rendere i chatbot intelligenti come gli esseri umani, siamo sicuramente riusciti a renderli stupidi come gli esseri umani. Forse è tutto ciò di cui abbiamo bisogno, anche se non lo desideriamo. La somiglianza tra i cervelli umani e i Transformers è sorprendente.
Nelle discussioni su HackerNews, Reddit e Twitter su questo stesso argomento, gli utenti hanno condiviso come l’aumento del numero di token stia diventando ridicolo a questo punto. Un utente su Reddit afferma: “L’ho notato con GPT-4. Ignora alcune parti del contesto e, quando lo faccio notare, è consapevole di ciò che gli è stato detto, ma non sapeva di dover cercare una risposta specifica. Abbiamo lo stesso problema con la nostra memoria, quindi mi ci ritrovo”.
Inoltre, se i fornitori di LLM tramite API addebitano un costo per token, aumentare il numero di token di contesto solo per guadagnare di più ha senso solo per loro. Ulteriori ricerche potrebbero valutare se aggiungere più token di contesto abbia davvero senso.
I costi elevati della tokenizzazione nei Transformers sollevano il dubbio se alla fine ne valga la pena. Claude di Anthropic, che ha un massimo di 100k di token, potrebbe rivelarsi molto costoso se prendiamo ad esempio il costo di 1,96 USD per token per il contesto di 32k di GPT-4.
Per ora, gli LLM, proprio come noi umani, hanno la curiosa abitudine di ricordare l’inizio e la fine della storia con grande enfasi, ignorando casualmente la parte centrale caotica. Questi modelli mostrano una tendenza comune: più lungo è il contesto, maggiore è la probabilità di inciampare. È quasi come se soffrissero di una sorta di “disturbo da deficit di attenzione contestuale”.