I modelli linguistici di grandi dimensioni (LLM) come GPT-4 e Claude-3 hanno rivoluzionato il panorama dell’intelligenza artificiale, offrendo prestazioni straordinarie in compiti complessi. Tuttavia, un problema ricorrente è la loro tendenza a ignorare o non seguire correttamente le istruzioni, soprattutto quando queste sono lunghe o articolate. Questo fenomeno, noto come “salto delle istruzioni”, può compromettere l’affidabilità e l’efficacia delle risposte generate.

Il salto delle istruzioni negli LLM può essere attribuito a diversi fattori tecnici e pratici. Innanzitutto, i modelli utilizzano meccanismi di attenzione per assegnare importanza alle diverse parti dell’input. Quando il prompt è lungo o ripetitivo, l’attenzione diventa diluita, e le istruzioni successive ricevono meno enfasi, aumentando la probabilità che vengano ignorate. Inoltre, i modelli hanno limiti fissi nel numero di token che possono elaborare (ad esempio, 2048 token); qualsiasi testo oltre questa soglia viene troncato e ignorato, causando la perdita totale delle istruzioni finali.

Un altro aspetto critico è la complessità e l’ambiguità dell’output. Gli LLM possono avere difficoltà a generare risposte chiare e complete quando si trovano di fronte a istruzioni multiple o contrastanti. Per evitare contraddizioni o confusione, il modello potrebbe generare risposte parziali o vaghe, omettendo alcune istruzioni. L’ambiguità nel modo in cui le istruzioni sono formulate rappresenta una sfida aggiuntiva: prompt poco chiari o imprecisi rendono difficile per il modello determinare le azioni da intraprendere, aumentando il rischio di saltare o fraintendere parti dell’input.

La progettazione e la formattazione del prompt giocano anch’esse un ruolo cruciale. Anche piccole modifiche nel modo in cui le istruzioni sono scritte o strutturate possono influenzare significativamente la capacità del modello di seguirle. Prompt mal strutturati, privi di chiara separazione, punti elenco o numerazione, rendono più difficile per il modello distinguere tra i passaggi, aumentando la possibilità che vengano fusi o omessi. La rappresentazione interna del prompt da parte del modello è altamente sensibile a queste variazioni, il che spiega perché l’ingegneria del prompt (riformulazione o ristrutturazione dei prompt) possa migliorare sostanzialmente l’aderenza alle istruzioni, anche se il contenuto sottostante rimane lo stesso.

Per migliorare la capacità degli LLM di seguire correttamente le istruzioni, è fondamentale adottare alcune best practices nella progettazione dei prompt:

  • Suddividere i compiti complessi in parti più piccole: I prompt lunghi o a più fasi dovrebbero essere divisi in segmenti più piccoli e focalizzati. Fornire una o due istruzioni alla volta consente al modello di mantenere un’attenzione migliore e riduce la probabilità che vengano trascurati passaggi.
  • Formattare le istruzioni utilizzando elenchi numerati o puntati: Organizzare le istruzioni con una formattazione esplicita, come elenchi numerati o puntati, aiuta a indicare che ogni elemento è un compito individuale. Questa chiarezza aumenta le probabilità che la risposta affronti tutte le istruzioni.
  • Rendere le istruzioni esplicite e inequivocabili: È essenziale che le istruzioni indichino chiaramente la necessità di completare ogni passaggio. Il linguaggio ambiguo o vago dovrebbe essere evitato. Il prompt dovrebbe indicare esplicitamente che nessun passaggio può essere saltato.
  • Aggiungere istruzioni di completamento e promemoria: Ricordare esplicitamente al modello di “rispondere a ogni compito completamente”, “non saltare alcuna istruzione” e “separare chiaramente le risposte” aiuta il modello a concentrarsi sulla completezza quando vengono combinati più compiti.
  • Testare diversi modelli e impostazioni dei parametri: Non tutti gli LLM performano allo stesso modo nel seguire più istruzioni. È consigliabile valutare vari modelli per identificare quelli che eccellono in compiti a più fasi. Inoltre, regolare parametri come temperatura, numero massimo di token e prompt di sistema può ulteriormente migliorare la concentrazione e la completezza delle risposte.
  • Considerare il fine-tuning dei modelli e l’utilizzo di strumenti esterni: I modelli dovrebbero essere fine-tuned su set di dati che includono istruzioni a più fasi o sequenziali per migliorare la loro aderenza ai prompt complessi. Tecniche come il Reinforcement Learning con Feedback Umano (RLHF) possono ulteriormente migliorare l’aderenza alle istruzioni. Per casi d’uso avanzati, l’integrazione di strumenti esterni come API, plugin specifici per compiti o sistemi di Generazione Aumentata da Recupero (RAG) può fornire contesto e controllo aggiuntivi, migliorando l’affidabilità e l’accuratezza delle risposte.

Gli LLM sono strumenti potenti, ma possono saltare le istruzioni quando i prompt sono lunghi o complessi. Questo accade a causa del modo in cui leggono l’input e concentrano la loro attenzione. Le istruzioni dovrebbero essere chiare, semplici e ben organizzate per ottenere risultati migliori e più affidabili. Suddividere i compiti in parti più piccole, utilizzare elenchi e fornire istruzioni dirette aiutano i modelli a seguire i passaggi completamente.

Prompt separati possono migliorare l’accuratezza per compiti critici, sebbene richiedano più tempo. Inoltre, metodi avanzati di prompt come il chain-of-thought e una formattazione chiara aiutano a bilanciare velocità e precisione. Inoltre, testare diversi modelli e fine-tuning possono anche migliorare i risultati. Queste idee aiuteranno gli utenti a ottenere risposte coerenti e complete, rendendo gli strumenti AI più utili nel lavoro reale.

Di Fantasy