Nel dibattito attuale sull’intelligenza artificiale applicata alla gestione della conoscenza, una delle tecnologie più pubblicizzate negli ultimi anni è il cosiddetto RAG, ovvero Retrieval-Augmented Generation. In teoria, i sistemi RAG dovrebbero potenziare i modelli linguistici consentendo loro di consultare set di documenti esterni — manuali tecnici, policy aziendali, report di ricerca — prima di generare una risposta. L’idea è allettante: inserisci i tuoi PDF o database nella pipeline, agganci un modello di linguaggio e ottieni risposte precise e aggiornate, basate su fatti reali. Tuttavia, una recente analisi pubblicata su Most RAG systems don’t understand documents—they shred them – VentureBeat
mette in luce un problema fondamentale che molti team tecnici stanno sperimentando sul campo: i sistemi RAG, così come sono comunemente implementati, non capiscono davvero i documenti complessi e nella pratica li “distruggono” piuttosto che interpretarli correttamente.

La questione nasce dal modo in cui la maggior parte delle pipeline RAG processa i contenuti testuali. I documenti digitali, soprattutto quelli tecnici o aziendali, non sono semplici blocchi di testo continuo: contengono tabelle, grafici, gerarchie, sezioni, riferimenti incrociati, didascalie e altri elementi che portano significato aggiuntivo alla struttura. Tuttavia, i sistemi RAG standard tendono ad applicare una tecnica nota come fixed-size chunking, ovvero la suddivisione arbitraria del testo in segmenti di lunghezza prefissata — per esempio ogni 500 caratteri — senza alcuna consapevolezza della semantica o del contesto.

Questo metodo può funzionare abbastanza bene per testi narrativi o discorsivi, ma nei documenti sofisticati come manuali tecnici o report di ingegneria diventa un boomerang. Quando un sistema taglia un documento in base al numero di caratteri, separa inconsapevolmente informazioni che appartengono logicamente insieme: la riga di intestazione di una tabella può essere tagliata lontano dai valori numerici a cui si riferisce, una didascalia può essere separata dall’immagine o dalla figura che descrive, e paragrafi concettualmente legati possono finire in “pezzi” separati che perdono totalmente il loro significato. In questo modo l’AI non legge il documento come un umano, ma piuttosto ne ricava una collezione di frammenti senza coerenza.

Quando un utente pone una domanda al sistema, quindi, ciò che il modello recupera dai database vettoriali non è una comprensione coerente del testo, ma una raccolta di frammenti parziali che sembrano rilevanti sul piano statistico. Poiché il modello di linguaggio deve comunque produrre una risposta, spesso tenta di “riempire i vuoti” con supposizioni plausibili, ma non necessariamente accurate, generando così quello che nel linguaggio dell’AI viene chiamato hallucination, ovvero l’illusione di conoscenza. In contesti aziendali dove la precisione è cruciale — come la risposta su specifiche tecniche o la consultazione di policy interne — questi errori possono avere conseguenze reali.

Il dibattito su come superare questo limite non riguarda semplicemente l’adozione di modelli di linguaggio più grandi o più potenti. Il cuore del problema è piuttosto come si interpreta e si segmenta un documento prima che l’AI lo “veda”. Secondo gli esperti, la soluzione non risiede solo nell’aumentare la capacità computazionale del modello, ma nel ripensare l’intero processo di preprocessing. Questo significa adottare strumenti e tecniche che rispettino la struttura stessa del documento, come l’analisi semantica basata sulle intestazioni, paragrafi, sezioni, tabelle complete e relazioni strutturali all’interno del testo. Tecnologie come parser intelligenti che comprendono la gerarchia di un documento, oppure sistemi in grado di trattare tabelle e immagini come elementi integrati piuttosto che come blocchi separati di testo, sono considerate vie più promettenti per migliorare la comprensione reale dei contenuti.

Questa problematica non è isolata nel mondo accademico o teorico: molte organizzazioni stanno scoprendo che i loro prototipi di RAG “funzionano” bene solo nei casi semplici, ma collassano quando devono affrontare documenti complessi o rispondere a domande che richiedono un ragionamento profondo, piuttosto che semplice recupero di frammenti di testo. Ne consegue che molte implementazioni aziendali di assistenti basati su RAG faticano a fornire risposte affidabili, nonostante l’impressionante livello di sofisticazione raggiunto dagli LLM moderni.

Il tema solleva riflessioni più ampie su cosa significhi realmente “far leggere” un documento a una macchina. Un essere umano non legge un PDF sgranocchiandolo a piccoli pezzi, ma interpreta la struttura logica e visuale per comprendere concetti e relazioni. Per avvicinare l’AI a un comportamento simile, le tecnologie di semantic chunking e di parsing strutturale diventano essenziali. Solo attraverso questi strumenti si può sperare di costruire sistemi RAG in grado di offrire risposte affidabili anche sui contenuti più intricati, preservando il significato originale dei documenti e riducendo drasticamente il rischio di errori di interpretazione.

Di Fantasy