Negli ultimi anni la diffusione di agenti di intelligenza artificiale — sistemi basati su modelli linguistici avanzati in grado di completare compiti, prendere decisioni autonome e interagire con l’ambiente digitale — ha alimentato grandi aspettative sull’avvento di una nuova generazione di automazione intelligente. Dalle applicazioni di produttività personale ai sistemi autonomi che dovrebbero gestire interi workflow, il potenziale di questi strumenti è stato descritto da molti leader tecnologici come praticamente illimitato. Tuttavia, una recente ricerca che ha attirato l’attenzione dei media, ripresa anche da Gizmodo, segnala che questa visione potrebbe dover essere rivista: secondo lo studio, gli agenti basati su grandi modelli linguistici generativi (LLM) potrebbero essere destinati a scontrarsi con un “muro matematico” insormontabile quando la complessità dei compiti supera una certa soglia.
L’idea centrale della ricerca è che esista una limitazione intrinseca ai modelli linguistici basati su trasformatori, il tipo di architettura su cui si fondano la maggior parte dei sistemi di IA generativa oggi. Questi modelli sono progettati per prevedere la parola successiva in una sequenza e per gestire testi e istruzioni basandosi su enormi quantità di dati; tuttavia, quando gli viene chiesto di affrontare compiti computazionalmente complessi o di coordinare compiti multi-passo senza supervisione esterna, sembra che la loro capacità di calcolo interno non sia sufficiente per garantire risultati affidabili. Secondo gli autori dello studio, oltre una certa soglia di complessità, i modelli semplicemente non possono completare le operazioni richieste o possono generare risposte errate o fuorvianti, mettendo in discussione la visione di agenti completamente autonomi capaci di sostituire il giudizio umano in compiti critici.
Questa conclusione è tanto sorprendente quanto complessa da interpretare, perché non deriva da un singolo esperimento empirico, ma da un’argomentazione matematico-teorica che analizza i limiti computazionali dei LLM senza strumenti ausiliari. In pratica, lo studio non afferma semplicemente che “l’IA fa errori”: piuttosto, suggerisce che la struttura stessa dei modelli attuali pone un limite alla loro capacità di ragionamento e di pianificazione autonoma, almeno nella forma pura in cui sono oggi concepiti. Questo mette in discussione alcune delle narrazioni più ottimistiche secondo cui l’intelligenza artificiale generativa andrà a sostituire in modo naturale molte delle competenze umane più complesse.
È importante sottolineare che il dibattito attorno a questi risultati non è univoco. Molti esperti nel campo osservano che gli agenti intelligenti non vengono mai impiegati da soli, ma in combinazione con sistemi di strumenti, memorie esterne, software ausiliari e supervisione umana. Per esempio, quando un LLM non è in grado di calcolare un valore numerico complesso o di completare un task che richiede molte fasi, può generare del codice, consultare moduli specializzati o utilizzare tecniche di retrieval-augmented generation (RAG), superando così i limiti teorici di elaborazione interna. In questa prospettiva, il “muro matematico” non è una barriera invalicabile, ma piuttosto un promemoria della necessità di integrazione e orchestrazione intelligente tra modelli e strumenti esterni per ottenere agenti realmente utili in contesti applicativi concreti.
La discussione solleva anche questioni più profonde sul modo in cui pensiamo all’intelligenza in senso generale: la capacità di risolvere problemi complessi non coincide semplicemente con l’espansione di parametri o l’aumento della potenza di calcolo, ma richiede un modo di elaborare e utilizzare informazioni che potrebbe essere fondamentalmente diverso da quello oggi implementato nei modelli linguistici. Anche grandi modelli di ultima generazione possono eccellere nel riconoscimento di pattern e nella generazione di testi plausibili, ma quando si tratta di compiti che richiedono ragionamento astratto, memoria di lungo periodo e pianificazione sequenziale estremamente sofisticata, la loro performance può degradare in modo significativo proprio perché non sono stati progettati come sistemi generali di risoluzione di problemi.
In realtà, gli agenti di intelligenza artificiale hanno già mostrato performance notevoli in compiti settoriali: l’AI ha superato campioni umani in giochi complessi come Go o gestito brillanti soluzioni in ambiti specializzati come la generazione di codice, dove il compito può essere verificato e corretto in modo formale. Tuttavia, quando si va oltre questi ambienti ben definiti e si chiede ai modelli di agire in contesti aperti con innumerevoli possibili stati e conseguenze, emergono le difficoltà più profonde. Alcuni ricercatori sostengono che è qui che si gioca la partita dell’intelligenza artificiale futura: non tanto nell’aumentare la scala dei modelli, ma nel comprendere come combinare modelli, strumenti di verifica, input umani e architetture ibride che superino i limiti di ciascun singolo componente.
