Un gruppo di ricerca del Korea Advanced Institute of Science and Technology (KAIST), in collaborazione con la startup Graphi, ha sviluppato AkasicDB, un nuovo sistema di gestione dati progettato per unificare database vettoriali, database a grafo e database relazionali all’interno di un’unica piattaforma. Sulla base di questa architettura è stato inoltre realizzato OmniRAG, un framework di Retrieval-Augmented Generation che utilizza simultaneamente informazioni semantiche, relazioni tra entità e dati strutturati per migliorare l’accuratezza delle risposte generate dai modelli linguistici.
L’iniziativa affronta uno dei principali limiti delle attuali architetture RAG utilizzate nelle applicazioni enterprise. Nella maggior parte dei sistemi oggi in uso, i documenti vengono convertiti in embedding vettoriali e successivamente recuperati attraverso meccanismi di similarità semantica. Questo approccio risulta efficace quando le informazioni richieste sono contenute in documenti non strutturati, ma mostra difficoltà nel momento in cui una domanda richiede contemporaneamente la comprensione del significato dei documenti, l’analisi delle relazioni tra entità e l’applicazione di filtri basati su dati strutturati.
Le organizzazioni moderne gestiscono infatti informazioni distribuite in molteplici formati. Contratti, report tecnici, documentazione operativa, tabelle finanziarie, registri aziendali e knowledge graph coesistono all’interno dello stesso ecosistema informativo. Nei sistemi convenzionali, questi dati vengono normalmente conservati in piattaforme separate e interrogati attraverso processi distinti che richiedono continui trasferimenti di dati e numerose elaborazioni intermedie.
AkasicDB è stato progettato per eliminare questa frammentazione. Il sistema integra in un’unica infrastruttura le funzionalità tipiche dei database vettoriali, utilizzati per la ricerca semantica, dei database a grafo, utilizzati per rappresentare e navigare relazioni complesse tra entità, e dei database relazionali tradizionali, utilizzati per gestire dati strutturati e query basate su condizioni specifiche. In questo modo le diverse tipologie di interrogazione possono essere eseguite all’interno dello stesso ambiente senza dover coordinare più sistemi indipendenti.
Su questa base è stato costruito OmniRAG, un framework che consente ai modelli linguistici di recuperare simultaneamente informazioni provenienti da tutte e tre le dimensioni informative. Durante l’esecuzione di una query, il sistema può effettuare ricerche semantiche sui contenuti documentali, esplorare le connessioni presenti nei grafi di conoscenza e applicare filtri strutturati basati su attributi come date, categorie, valori numerici o tipologie di documento. Il risultato è un insieme di evidenze più completo e contestualizzato da fornire al modello linguistico prima della generazione della risposta.
Questo approccio risulta particolarmente utile per interrogazioni aziendali complesse che richiedono ragionamenti multi-livello. Domande che coinvolgono relazioni tra aziende, eventi, documenti, periodi temporali e dati strutturati non possono essere risolte efficacemente attraverso una semplice ricerca vettoriale. OmniRAG è stato progettato proprio per combinare simultaneamente questi differenti livelli informativi e fornire al modello un contesto più accurato e verificabile.
Uno degli obiettivi principali del progetto è la riduzione delle cosiddette allucinazioni dei modelli generativi. Fornendo evidenze provenienti contemporaneamente da documenti, grafi di conoscenza e basi dati strutturate, il sistema riduce il rischio che il modello produca affermazioni prive di supporto documentale o incoerenti con i dati disponibili. L’integrazione diretta delle diverse fonti informative permette inoltre di migliorare la tracciabilità delle risposte e la verificabilità delle informazioni utilizzate durante il processo di generazione.
I ricercatori hanno evidenziato anche vantaggi significativi sul piano delle prestazioni. L’eliminazione di numerosi passaggi intermedi e dei trasferimenti di dati tra sistemi differenti riduce il numero di operazioni necessarie per completare una richiesta. Nei test effettuati, query particolarmente complesse che richiedevano oltre venti secondi nei sistemi convenzionali sono state elaborate in circa un secondo, con un incremento prestazionale superiore a venti volte. Parallelamente è stata osservata una riduzione dell’utilizzo dei token da parte dei modelli linguistici e un miglioramento dell’accuratezza delle risposte che ha raggiunto il 78% rispetto alle implementazioni RAG tradizionali.
L’architettura proposta da KAIST e Graphi rappresenta un’evoluzione significativa delle infrastrutture dati destinate agli agenti AI e ai sistemi di generazione assistita da recupero delle informazioni. Integrando nativamente dati vettoriali, relazioni semantiche e informazioni strutturate all’interno dello stesso motore, AkasicDB e OmniRAG mirano a fornire una base tecnologica più adatta agli ambienti enterprise, dove affidabilità, precisione e capacità di ragionamento su dati eterogenei sono requisiti fondamentali per applicazioni nei settori della finanza, della produzione industriale, della difesa, del diritto e della ricerca scientifica.
