Nel campo dell’intelligenza artificiale, i modelli linguistici di grandi dimensioni (LLM) hanno rivoluzionato il modo in cui interagiamo con le macchine, permettendo una comprensione e generazione del linguaggio naturale senza precedenti. Tuttavia, una delle sfide più significative associate a questi modelli è il fenomeno delle “allucinazioni”, ovvero la generazione di informazioni inesatte o fuorvianti. Recentemente, un gruppo di ricercatori cinesi ha proposto un approccio innovativo per affrontare questo problema: l’utilizzo del formato HTML nei sistemi di generazione aumentata dal recupero (RAG).
Le allucinazioni nei modelli linguistici si verificano quando l’IA produce risposte che, pur sembrando plausibili, sono in realtà inesatte o completamente inventate. Questo rappresenta un ostacolo significativo, soprattutto in applicazioni dove l’accuratezza delle informazioni è cruciale. I sistemi RAG sono stati sviluppati per mitigare questo problema, combinando le capacità generative degli LLM con meccanismi di recupero di informazioni da fonti esterne. Tuttavia, l’estrazione di testo semplice dalle pagine web spesso porta alla perdita di informazioni strutturali e semantiche preziose, presenti nel formato HTML originale.
Nel loro studio intitolato “HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge in RAG Systems”, i ricercatori propongono l’utilizzo del formato HTML completo nei sistemi RAG. L’idea centrale è che mantenendo la struttura HTML, si preservano informazioni semantiche e contestuali che possono aiutare gli LLM a generare risposte più accurate e pertinenti. Elementi come intestazioni, tabelle e liste, spesso persi durante la conversione in testo semplice, forniscono indizi importanti sulla gerarchia e l’importanza delle informazioni.
L’integrazione dell’HTML nei sistemi RAG presenta diverse sfide. Le pagine web possono contenere elementi non necessari come script, stili e annunci pubblicitari, che aumentano la complessità e il rumore nei dati. Per affrontare questo problema, i ricercatori hanno sviluppato un algoritmo di potatura in due fasi. La prima fase prevede la pulizia degli elementi HTML non essenziali, riducendo significativamente la lunghezza del documento. La seconda fase utilizza un approccio basato su alberi a blocchi, combinando tecniche di embedding e generative per ulteriormente ridurre il contenuto, mantenendo però le informazioni chiave.
L’adozione del formato HTML nei sistemi RAG offre diversi vantaggi:
- Preservazione della Struttura Semantica: Mantenendo la struttura originale della pagina, gli LLM possono comprendere meglio il contesto e l’importanza relativa delle informazioni.
- Riduzione delle Allucinazioni: Con una comprensione più profonda del contesto, gli LLM sono meno propensi a generare informazioni inesatte o fuorvianti.
- Miglioramento dell’Accuratezza: L’accesso a informazioni strutturate consente agli LLM di produrre risposte più precise e pertinenti alle query degli utenti.