Immagine AI

Un gruppo di ricercatori dell’Università della California di Berkeley ha presentato PixelRAG, un nuovo framework di Retrieval-Augmented Generation che propone un approccio radicalmente diverso alla gestione delle informazioni provenienti dal web. Invece di estrarre testo dalle pagine HTML attraverso parser tradizionali, il sistema acquisisce e indicizza direttamente screenshot delle pagine web, permettendo ai modelli multimodali di analizzare il contenuto nella sua forma visiva originale. I risultati mostrano miglioramenti dell’accuratezza fino al 18,1% rispetto ai sistemi RAG basati esclusivamente sul testo, accompagnati da una riduzione dei costi legati ai token che può arrivare a un ordine di grandezza rispetto ad alcune pipeline convenzionali.

L’idea alla base di PixelRAG nasce da una limitazione strutturale dei tradizionali sistemi RAG. Quando una pagina web viene elaborata, il contenuto HTML viene normalmente convertito in testo semplice attraverso processi di parsing e pulizia. Durante questa trasformazione vengono però spesso perse informazioni importanti come layout, gerarchie visive, tabelle, relazioni spaziali tra elementi, grafici, immagini e altre componenti che contribuiscono alla comprensione del contenuto. PixelRAG elimina questo passaggio e tratta la pagina web come un documento visuale completo, preservandone integralmente la struttura originale.

L’architettura utilizza un sistema di indicizzazione basato su screenshot suddivisi in sezioni e analizzati mediante modelli vision-language. Durante la fase di retrieval, il sistema non recupera frammenti testuali ma regioni visuali della pagina che vengono successivamente interpretate da modelli multimodali addestrati specificamente alla lettura di contenuti web. Questo approccio consente di sfruttare le capacità sempre più avanzate dei moderni VLM, che negli ultimi anni hanno raggiunto livelli elevati nella comprensione di documenti complessi, dashboard, tabelle e contenuti strutturati.

Uno degli aspetti più interessanti emersi dalla ricerca riguarda il fatto che i miglioramenti non si limitano a casi particolari contenenti grafici o tabelle. I ricercatori hanno osservato incrementi prestazionali anche in benchmark tradizionalmente orientati al testo. Secondo il team, ciò avviene perché la conversione HTML-testo introduce inevitabilmente una perdita di informazioni contestuali che invece rimangono disponibili quando il contenuto viene elaborato nella sua forma visuale originale. Elementi come titoli, evidenziazioni, colonne, relazioni tra blocchi informativi e organizzazione della pagina contribuiscono infatti alla comprensione semantica da parte del modello.

PixelRAG affronta anche uno dei problemi più rilevanti dell’ecosistema agentico moderno: il costo dei token. I sistemi RAG tradizionali tendono a trasferire grandi quantità di testo all’interno del contesto del modello, aumentando rapidamente il numero di token elaborati durante ogni richiesta. L’approccio visuale permette invece di recuperare e processare contenuti in modo più compatto, riducendo significativamente il volume di informazioni testuali che devono essere inserite nei prompt. Secondo i risultati pubblicati, questa strategia consente una riduzione dei costi operativi che può raggiungere un fattore di dieci rispetto ad alcune implementazioni convenzionali.

La ricerca evidenzia anche un cambiamento più ampio nel modo in cui vengono progettati i sistemi di retrieval. Per anni l’industria ha considerato il testo come la rappresentazione primaria delle informazioni presenti sul web. PixelRAG suggerisce invece che l’interfaccia visuale della pagina costituisca essa stessa una fonte di conoscenza e contesto che non dovrebbe essere eliminata durante la fase di acquisizione dei dati. Questa visione diventa particolarmente rilevante nell’era dei modelli multimodali, capaci di interpretare contemporaneamente testo, immagini e struttura visiva.

L’iniziativa dei ricercatori di Berkeley mostra quindi una possibile evoluzione delle architetture RAG di nuova generazione. Invece di investire ulteriormente nel perfezionamento dei parser HTML e nelle tecniche di estrazione testuale, PixelRAG propone di sfruttare direttamente le capacità percettive dei modelli multimodali moderni. Se i risultati ottenuti verranno confermati su larga scala, l’approccio potrebbe influenzare profondamente il modo in cui agenti AI, motori di ricerca intelligenti e sistemi di knowledge retrieval accedono alle informazioni pubblicate sul web, combinando maggiore accuratezza, migliore comprensione del contesto e costi di inferenza significativamente inferiori.

Di Fantasy