I ricercatori di Microsoft hanno recentemente proposto un nuovo framework per migliorare i modelli linguistici di grandi dimensioni (LLM) attraverso l’integrazione di conoscenze esterne ai dati di addestramento, un aspetto cruciale per le applicazioni aziendali.

Tradizionalmente, le tecniche per incorporare conoscenze specifiche nel LLM si basano sulla Generazione Aumentata dal Recupero (RAG). Tuttavia, queste tecniche non sono sempre sufficienti. I ricercatori di Microsoft hanno evidenziato che le applicazioni LLM devono affrontare sfide complesse, soprattutto nei domini specialistici.

Per affrontare la complessità delle richieste, i ricercatori propongono una classificazione delle query in quattro livelli, basata sui dati esterni richiesti e sulla complessità del ragionamento:

  • Fatti Espliciti: Query che richiedono informazioni chiaramente dichiarate nei dati.
  • Fatti Impliciti: Query che necessitano di deduzione di informazioni non esplicitamente dichiarate, spesso tramite ragionamenti di base.
  • Motivazioni Interpretabili: Query che richiedono l’applicazione di regole specifiche fornite in risorse esterne.
  • Ragioni Nascoste: Query che richiedono la scoperta di metodi di ragionamento impliciti non descritti nei dati.

Ogni livello presenta sfide uniche e richiede soluzioni specifiche per essere affrontato in modo efficace.

Dettagli sulle categorie di query:

  • Fatti Espliciti: Questo tipo di query si concentra sul recupero di informazioni dirette dai dati. La RAG di base è l’approccio comune, ma ci sono sfide durante l’indicizzazione e il recupero delle informazioni. Le tecniche di analisi multimodale possono aiutare a gestire grandi set di dati non strutturati.
  • Fatti Impliciti: Qui, il LLM deve raccogliere informazioni da più documenti. Tecniche avanzate, come l’Interleaving Retrieval with Chain-of-Thought (IRCoT), possono migliorare il recupero. L’uso di grafici della conoscenza può semplificare i ragionamenti complessi, collegando concetti diversi.
  • Motivazioni Interpretabili: Le query a questo livello richiedono agli LLM di applicare regole specifiche. È fondamentale integrare efficacemente queste motivazioni, e le tecniche di apprendimento per rinforzo possono migliorare l’aderenza a tali regole.
  • Ragioni Nascoste: Le query con motivazioni nascoste sono le più complesse, richiedendo al LLM di scoprire e applicare conoscenze implicite. Questa categoria richiede tecniche sofisticate per recuperare informazioni correlate anche se non semanticamente simili.

Il framework sviluppato dai ricercatori di Microsoft evidenzia i progressi degli LLM nell’uso dei dati esterni, ma sottolinea anche che ci sono ancora molte sfide da affrontare. Le aziende possono utilizzare questo framework per prendere decisioni informate su come integrare le conoscenze esterne nei loro LLM.

Sebbene le tecniche RAG possano migliorare notevolmente le prestazioni degli LLM, è essenziale che gli sviluppatori riconoscano i limiti delle tecniche adottate e sappiano quando passare a sistemi più complessi o evitare l’uso degli LLM in determinate situazioni.

Di Fantasy