I ricercatori della Nanyang Technological University, della Singapore University of Technology and Design e della DAMO Academy di Alibaba hanno sviluppato LLM-R2, un sistema per ottimizzare le query SQL. Questo sistema si basa su regole potenziate da un Language Model (LLM) al fine di migliorare notevolmente l’efficienza delle query.
La riscrittura delle query è un processo volto a trasformare una query SQL in un formato nuovo, che conservi i risultati originali ma sia più efficiente nell’esecuzione. Questo processo deve rispettare tre criteri principali: deve essere eseguibile, equivalente ed efficiente. I tradizionali sistemi di riscrittura delle query si basano su regole predefinite, ma spesso incontrano limitazioni computazionali e imprecisioni nei calcoli dei costi dei database.
LLM-R2 supera queste sfide integrando un LLM per suggerire regole di riscrittura ottimali per le query SQL. Queste regole vengono quindi implementate utilizzando una piattaforma di database esistente, garantendo che le query riscritte mantengano la loro eseguibilità e precisione, mentre migliorano l’efficienza complessiva.
Un progresso chiave di LLM-R2 è l’uso di modelli di apprendimento contrastivi, che migliorano la selezione delle regole di riscrittura comprendendo la struttura e il contesto di ogni query. Ciò consente a LLM-R2 di applicare le ottimizzazioni più appropriate, portando a una significativa riduzione dei tempi di esecuzione delle query su diversi set di dati.
LLM-R2 è stato testato su vari set di dati, dimostrando una riduzione significativa dei tempi di esecuzione delle query rispetto ai metodi tradizionali basati su regole e ad altri sistemi basati su LLM. In media, ha ridotto il tempo di esecuzione delle query SQL del 52,5% rispetto alle query originali e del 40,7% rispetto ai metodi più moderni.
Anche se LLM-R2 ha una latenza di riscrittura maggiore rispetto ai metodi basati solo sui database, i vantaggi nell’efficienza sono evidenti. Riduce notevolmente il tempo necessario per eseguire le query, dimostrando che l’utilizzo di modelli potenziati da LLM può essere una soluzione efficace per ottimizzare le query SQL.