Se si chiede al sistema di intelligenza artificiale integrato nella ricerca di Google quante “p” contenga la parola “Google”, la risposta è due. Interrogato su parole comuni, lo stesso strumento arriva a comporre “journalism” come “j-o-u-r-n-a-d-i-s-m”, a trasformare il cognome Trump in “t-r-p-u-m” e a far diventare “Corriere” qualcosa come “Corrieru”. È un comportamento che disorienta, perché la stessa tecnologia è capace di scrivere il codice di un’applicazione in pochi secondi, di affrontare problemi matematici complessi e di generare video fotorealistici partendo da una descrizione testuale, eppure inciampa su un esercizio da prima elementare come contare o ordinare le lettere di una parola.
La spiegazione non sta in un errore occasionale da correggere con una patch, ma in un limite strutturale del modo in cui questi modelli funzionano. Un modello linguistico non legge il testo lettera per lettera come facciamo noi. L’architettura su cui si basano i chatbot e i riassunti automatici dei motori di ricerca, quella dei transformer, scompone ciò che riceve in unità chiamate token, che possono corrispondere a una parola intera, a una sillaba o a un frammento di parola. Il modello impara a manipolare queste unità in base alle relazioni statistiche che le legano tra loro, ma non ha un accesso diretto e affidabile ai singoli caratteri che le compongono. In altre parole, quando elabora “il” lavora su una rappresentazione complessiva di quella sequenza, non sulla “i” e sulla “l” come entità separate. Per questo un compito che a noi sembra elementare, contare le occorrenze di una lettera, richiede al sistema un’operazione che la sua stessa struttura non è progettata per svolgere con precisione.
Il fenomeno è ormai diventato una sorta di test informale con cui mettere alla prova questi strumenti, proprio perché evidenzia il divario tra ciò che sanno fare e ciò che invece sfugge alla loro logica interna. Lo stesso Google ha riconosciuto pubblicamente la questione, definendo il conteggio delle lettere una difficoltà nota dei modelli linguistici di grandi dimensioni e dichiarando di essere al lavoro per affrontare questo problema specifico. La correzione, però, non è banale: intervenire su un comportamento che deriva dall’impostazione di fondo del modello è ben più complicato che sistemare un singolo malfunzionamento, e non è ancora chiaro quando arriverà una soluzione stabile.
L’aspetto che rende la vicenda più rilevante del semplice aneddoto curioso è il contesto in cui questi errori compaiono. Le risposte generate automaticamente vengono mostrate in cima ai risultati di ricerca, cioè nello spazio su cui un’enorme quantità di persone fa affidamento ogni giorno per informarsi. Vedere uno strumento tanto potente fallire su un compito così banale è un promemoria utile: questi sistemi non “capiscono” il linguaggio nel modo in cui lo intendiamo noi e la loro fluidità apparente convive con punti ciechi che dipendono direttamente da come sono costruiti.
