Le allucinazioni hanno afflitto gli LLM sin dai loro primi sviluppi, alimentando preoccupazioni sulla loro capacità di produrre disinformazione credibile. Anche se i migliori think tank di intelligenza artificiale hanno cercato diverse soluzioni per ridurre le allucinazioni nei LLM, bisogna ammettere che queste allucinazioni sono inevitabili a causa dell’architettura stessa dei modelli linguistici.
Tuttavia, potrebbe esserci una soluzione architettonica a questo problema radicato. L’utilizzo di database vettoriali, che ha visto un’esplosione nell’ambito dell’intelligenza artificiale, potrebbe essere la chiave per prevenire le allucinazioni nei LLM.
Una società chiamata MyScale ha introdotto una tecnica chiamata Vector SQL, che permette agli LLM di interrogare database vettoriali invece di generare autonomamente le risposte alle domande degli utenti. Sebbene questo approccio relega gli LLM a una parte del processo di recupero dati più ampio, è dimostrato che riduce le allucinazioni e rende gli LLM più affidabili per un utilizzo diffuso.
Per comprendere l’efficacia dell’SQL vettoriale nel ridurre le allucinazioni, è importante capire perché gli LLM le producono. Gli LLM generano testo prevalentemente predendo statisticamente il token successivo, e quindi possono inventare parole e frasi basandosi sui dati di addestramento. A causa della probabilità statistica con cui alcune parole si verificano consecutivamente nei dati di addestramento, gli LLM possono generare disinformazione in modo credibile.
Con l’ausilio dei database vettoriali, gli LLM possono interrogare un indice di contenuti scritti da esseri umani, aiutandoli a supportare le loro affermazioni. Invece di generare le risposte solo dai propri dati di addestramento, gli LLM possono interrogare il database per ottenere informazioni, fornendo risultati migliori rispetto alla generazione di testo non controllata, riducendo così il rischio di allucinazioni. Anche se occorrono filtri per evitare che il modello venga “confuso”, questa soluzione è comunque migliore rispetto alla generazione di testo grezzo.
L’automazione tramite codice SQL è il passo successivo nei database vettoriali. Sfruttando la capacità di generare codice degli LLM, è possibile far scrivere loro query SQL in risposta alle domande degli utenti formulate in linguaggio naturale. Queste query possono quindi essere passate a un motore SQL vettoriale, che le convertirà nel formato adatto al database. Le informazioni vengono quindi presentate all’utente in un formato leggibile.
Vector SQL offre numerosi vantaggi, tra cui maggiore efficienza, maggiore flessibilità per supportare funzionalità avanzate e tutti i vantaggi dell’SQL tradizionale. Poiché gli LLM sono stati ampiamente addestrati sui dati che includono codice SQL, possono facilmente generare codice SQL e le soluzioni di database come PostgreSQL e Clickhouse hanno già integrato la funzionalità di ricerca vettoriale da utilizzare con l’intelligenza artificiale. Inoltre, è possibile progettare un LLM tramite prompt per costruire query SQL vettoriali, rendendo il metodo SQL vettoriale compatibile con LLM standard.
Anche se questa è una nuova soluzione per consentire agli LLM di accedere a dati verificabili, molti dei migliori chatbot attuali utilizzano già metodi simili. Sebbene le allucinazioni non siano state completamente eliminate, le soluzioni architettonicamente solide hanno dimostrato di ridurne significativamente la frequenza.
Un esempio è il Bing Chat di Microsoft, che è stato progettato specificamente come un’interfaccia in linguaggio naturale per la ricerca web, piuttosto che un LLM autonomo. Microsoft ha creato un sistema chiamato Prometheus, che sembra utilizzare il modello GPT per generare query interne tramite Bing Orchestrator. Queste query permettono al chatbot di fornire risposte pertinenti e basate sui dati più recenti tramite il motore di ricerca Bing, riducendo così il rischio di allucinazioni. Inoltre, il chatbot fornisce citazioni collegate per ogni punto, aumentando la fiducia degli utenti nelle sue risposte.
Sebbene non sia chiaro se Prometheus utilizzi database vettoriali, l’avvento dell’SQL vettoriale e altre soluzioni simili potrebbero arricchire ulteriormente queste implementazioni. Con il continuo sviluppo delle tecnologie di intelligenza artificiale, è probabile che la riduzione delle allucinazioni diventi sempre più realizzabile.architettoniche simili, l’era degli LLM privi di allucinazioni potrebbe essere alle porte.