La recente ricerca presentata da Databricks e ripresa da VentureBeat segna un punto di svolta nel modo in cui vengono progettati i sistemi di intelligenza artificiale per contesti enterprise. Il risultato principale è netto: gli agenti multi-step, cioè sistemi in grado di suddividere un problema in più fasi di ragionamento ed esecuzione, superano in modo consistente le architetture single-step basate su una singola interrogazione e risposta.
Questo dato non rappresenta semplicemente un miglioramento incrementale delle performance, ma evidenzia un cambiamento strutturale nel paradigma dell’AI applicata alle aziende. Nei sistemi tradizionali, spesso costruiti su logiche di retrieval-augmented generation (RAG), il modello riceve una query, recupera informazioni e produce una risposta in un unico passaggio. Questo approccio funziona per task semplici o ben delimitati, ma mostra limiti evidenti quando le richieste implicano più fonti, vincoli logici o trasformazioni intermedie dei dati.
La ricerca dimostra che, in scenari complessi – ad esempio query ibride che combinano database strutturati e documenti non strutturati – anche modelli più potenti risultano meno efficaci rispetto a sistemi multi-step più deboli ma meglio orchestrati. In un test specifico, un modello avanzato ha perso con un margine del 21% rispetto a un agente multi-step progettato per scomporre e gestire il problema in più fasi.
Il motivo di questo divario risiede nella natura stessa del problema. Le richieste reali in ambito enterprise non sono monolitiche: richiedono decomposizione, pianificazione e iterazione. Un agente multi-step non si limita a “rispondere”, ma costruisce un processo. Questo processo può includere la suddivisione della domanda in sotto-task, l’esecuzione di più interrogazioni mirate, la verifica dei risultati intermedi e la composizione finale della risposta. In altre parole, introduce una forma di ragionamento operativo che i sistemi single-step non riescono a replicare.
Un elemento centrale emerso dalla ricerca è la capacità degli agenti multi-step di mantenere e utilizzare il contesto lungo tutta la catena di elaborazione. Nei sistemi tradizionali, le istruzioni e i vincoli inseriti nel prompt iniziale tendono a degradarsi man mano che il processo procede, soprattutto nella fase di retrieval. Questo fenomeno, spesso definito “instruction loss”, riduce la coerenza e l’affidabilità delle risposte. Le architetture multi-step, invece, permettono di propagare tali vincoli attraverso tutte le fasi, migliorando significativamente la qualità complessiva del risultato.
Il cambiamento è ancora più profondo. Non si tratta semplicemente di aggiungere più chiamate al modello, ma di progettare flussi di esecuzione. L’unità fondamentale non è più la singola inferenza, ma la pipeline di decisioni. Questo sposta l’attenzione dalle capacità del modello alla qualità dell’orchestrazione. Come evidenziato dalla ricerca, “modelli migliori non risolvono il problema quando la query attraversa più sistemi”: è l’architettura che determina il risultato.
Tuttavia, un aspetto cruciale è che multi-step non significa automaticamente multi-agent. L’introduzione di più agenti specializzati può migliorare ulteriormente le prestazioni, ma solo se supportata da una progettazione accurata. In molti casi, l’aggiunta indiscriminata di agenti porta a un aumento della latenza e dei costi senza benefici tangibili. Il vero vantaggio emerge quando il sistema è in grado di applicare il ragionamento multi-step nei punti in cui genera valore, evitando complessità inutile.
Questo tema si inserisce in una tendenza più ampia osservata nel mercato enterprise. I dati indicano una crescita rapidissima dei sistemi agentici, con un aumento del 327% nei workflow multi-agent in pochi mesi e una progressiva transizione da chatbot isolati a sistemi orchestrati e cooperativi. Questo passaggio riflette una maturazione dell’AI: da strumento di risposta a infrastruttura operativa.
Un’altra implicazione rilevante riguarda la valutazione delle prestazioni. Nei sistemi single-step, la qualità è spesso misurata sulla correttezza della risposta finale. Nei sistemi multi-step, invece, diventa necessario valutare l’intero processo: la capacità di decomporre il problema, la scelta delle fonti, la coerenza tra i passaggi e la gestione degli errori intermedi. Questo introduce nuove esigenze in termini di osservabilità e governance, che diventano componenti fondamentali dell’architettura.
In definitiva, la ricerca Databricks suggerisce che il futuro dell’AI enterprise non sarà determinato esclusivamente dalla potenza dei modelli, ma dalla capacità di costruire sistemi che ragionano per fasi. Il paradigma sta evolvendo da “prompt → risposta” a “problema → piano → esecuzione → verifica → risposta”. È in questa transizione che si gioca il vero vantaggio competitivo, perché è qui che l’intelligenza artificiale smette di essere un’interfaccia e diventa un sistema decisionale strutturato.
