Spesso, quando viene lanciato un nuovo modello linguistico di grandi dimensioni (LLM), gli utenti iniziano con domande semplici, come “Quante ‘R’ ci sono nella parola ‘Strawberry’?” oppure “Quale numero è più grande: 9,9 o 9,11?”. Tuttavia, questi modelli, come GPT-3.5, Claude e Llama, spesso danno risposte errate a tali quesiti. Questo perché i LLM non elaborano il testo come gli esseri umani, ma utilizzano un sistema di “tokenizzazione” che suddivide il testo in unità di significato chiamate token.
Quando un LLM elabora una parola, non la vede come un insieme di singole lettere, ma come uno o più token. Ad esempio, la parola “fragola” potrebbe essere scomposta in più token che non corrispondono direttamente alle lettere che compongono la parola. Questo processo rende difficile, se non impossibile, per un LLM contare correttamente le lettere.
Steve Wilson, CEO di Exabeam, ha spiegato che i modelli linguistici non formano una rappresentazione interna delle parole come fanno gli esseri umani. I modelli trasformano le parole in numeri in una fase iniziale chiamata tokenizzazione, e qualsiasi significato che attribuiamo alle parole viene rapidamente perso. Questo comporta che le parole diventano solo un insieme di numeri con relazioni complesse, rendendo complicato contare o analizzare singole lettere.
Quando si richiede a un LLM di eseguire attività più complesse, come identificare tutte le occorrenze di una lettera specifica, ogni passaggio introdotto nel processo aumenta la possibilità di errore. Se il modello fallisce in un passaggio, l’errore si riflette sull’intero risultato finale. Edgar ter Danielyan, direttore di Danielyan Consulting, ha sottolineato che gli LLM non comprendono il significato effettivo delle parole, ma lavorano con insiemi di numeri interrelati che rappresentano modelli e regolarità.
Un utente di Reddit ha evidenziato come, chiedendo a un LLM di contare quante volte appare la lettera “r” nella parola “fragola”, il modello potrebbe vedere la parola come tre token distinti: 302, 1618 e 19772. Non c’è modo di sapere che il terzo token (19772) contiene due “r”. È interessante notare che alcuni LLM potrebbero rispondere correttamente alla domanda, non perché capiscano veramente il conteggio delle lettere, ma perché la risposta corretta (tre) è stata appresa dai dati di addestramento.
Gli LLM attuali, come GPT-3.5, non comprendono veramente la composizione dei caratteri nelle parole, poiché la tokenizzazione si concentra su unità più grandi, come parole intere o parti di parole, anziché sui singoli caratteri. Questo crea un divario tra la rappresentazione del linguaggio nel modello e la reale struttura del testo a livello di caratteri.
Tuttavia, ci sono speranze per il futuro. Con l’introduzione di modelli più avanzati, come il recente modello o1, si iniziano a vedere miglioramenti nella capacità di risolvere problemi complessi attraverso un processo di ragionamento più simile a quello umano. Sebbene attualmente ci siano ancora difficoltà con compiti matematici di base, i progressi stanno aprendo la strada a modelli che potrebbero un giorno gestire il ragionamento in modo più efficiente e preciso.