Negli ultimi anni l’uso di modelli linguistici di grandi dimensioni — i cosiddetti LLM — si è diffuso a macchia d’olio nella tecnologia moderna, attraversando settori che vanno dalla ricerca scientifica alla creazione di contenuti, fino alla programmazione assistita e al supporto decisionale. Ma nonostante i continui progressi nella capacità di generare testo coerente e pertinente, rimane una sfida aperta: ottenere risposte realmente accurate e affidabili dai modelli, soprattutto su compiti specifici e non di carattere narrativo. Proprio questo tema, è stata presentanta una nuova tecnica di prompt che promette risultati sorprendenti, incrementando l’accuratezza dei modelli fino al 76% su compiti non legati al ragionamento esplicito.

L’idea alla base di questa tecnica è tanto semplice quanto controintuitiva: invece di richiedere al modello di generare ragionamenti espliciti, con passaggi logici dettagliati, si invita il sistema a fornire una risposta diretta senza articolare il ragionamento interno. In una serie di test head-to-head — prove di confronto diretto tra risposte generate con tecniche diverse — l’approccio ha mostrato progressi significativi. Su 70 confronti diretti, la variante di prompt che evita ragionamenti verbali ha prevalso in 47 casi senza subire sconfitte, suggerendo un vantaggio non banale in termini di accuratezza complessiva.

Questa scoperta ribalta in parte la percezione consolidata che un ragionamento verbale dettagliato — spesso usato per “costruire” la risposta passo dopo passo — sia sempre la via migliore per raggiungere risposte corrette. Nel lavoro descritto, i guadagni più marcati si osservano soprattutto in task di recupero preciso di informazioni, come quando il modello deve individuare un elemento specifico da una lunga lista. Un benchmark personalizzato chiamato NameIndex ha infatti messo alla prova la capacità di identificare il nome numero 25 in un elenco di 50, un compito apparentemente banale ma sorprendentemente impegnativo per un LLM senza una guida strutturata adeguata.

La tecnica si presta a una interpretazione più ampia nel contesto della prompt engineering, ovvero l’arte di formulare richieste ad un modello in modo che risponda al meglio delle sue capacità. Il campo della prompt engineering, come evidenziano anche fonti accademiche e review metodologiche, è pieno di esempi dove piccole variazioni nella formulazione delle istruzioni cambiano radicalmente il comportamento e l’accuratezza dei modelli. Alcuni studi addirittura mostrano che i sistemi possono variare di decine di punti percentuali in performance semplicemente a causa di modiche differenze nel modo in cui è strutturato il prompt.

Questa nuova tecnica di prompt assume dunque un significato più ampio: non si tratta solamente di preferire risposte “dirette” o “indirette”, ma di adattare l’interazione alla natura del compito richiesto al modello. In compiti in cui la precisione è fondamentale, e dove il rumore generato da un ragionamento esplicito può confondere più che aiutare, un prompt che spinge il modello verso risposte concise e mirate può massimizzare risultati. È una lezione importante perché, al di là di qualsiasi algoritmo o architettura di fondo, i modelli linguistici reagiscono a stimoli testuali in modi estremamente sensibili, e trovare il “modo giusto” di chiedere qualcosa può avere impatti enormi sulla qualità delle risposte.

I riflessi di questa scoperta vanno oltre la semplice performance numerica. In un’epoca in cui modelli come GPT, Gemini, Claude e altri sono sempre più integrati nei processi aziendali e produttivi, un miglioramento significativo dell’accuratezza non solo incrementa l’efficacia degli strumenti, ma può ridurre costi, errori operativi e la necessità di revisione umana. In certi casi, la capacità di estrarre risposte precise da richieste complesse può trasformare un semplice strumento di automazione in un assistente affidabile per decisioni critiche.

Di Fantasy