Immagine AI

Google Research ha presentato Gemini-SQL2, una nuova capacità text-to-SQL progettata per convertire domande formulate in linguaggio naturale in query SQL pronte per l’esecuzione. Il sistema è basato su Gemini 3.1 Pro e non viene presentato come un modello fondazionale separato, ma come una specializzazione orientata alla comprensione delle basi dati, alla generazione di interrogazioni SQL corrette e alla produzione di risultati verificabili su database reali.

Il risultato principale riguarda il benchmark BIRD, uno dei riferimenti più utilizzati per valutare i sistemi text-to-SQL. Gemini-SQL2 ha raggiunto un’accuratezza di esecuzione dell’80,04% nella categoria Single Trained Model, superando il precedente risultato di Gemini-SQL, pari al 76,13%. La differenza è importante perché BIRD non valuta soltanto la forma della query generata, ma verifica se l’SQL prodotto viene eseguito correttamente e restituisce lo stesso risultato della query di riferimento. In questo contesto, una query formalmente plausibile ma semanticamente errata non ottiene punteggio.

Il text-to-SQL è un problema più complesso della semplice traduzione di una frase in codice. Una domanda aziendale può implicare join tra tabelle, filtri temporali, aggregazioni, sottoquery, normalizzazioni, condizioni implicite e conoscenza del significato dei campi. Il modello deve interpretare il linguaggio dell’utente, collegarlo allo schema del database, riconoscere le relazioni tra tabelle e generare una query che non sia soltanto sintatticamente valida, ma corretta rispetto all’intenzione informativa della domanda.

BIRD è particolarmente rilevante perché contiene 12.751 coppie domanda-SQL, distribuite su 95 database e 37 domini professionali, per una dimensione complessiva di 33,4 GB. Il benchmark include scenari più vicini ai database aziendali reali rispetto ai dataset più semplici: valori incompleti o sporchi, strutture non uniformi, necessità di conoscenza esterna e domande che richiedono un’interpretazione del contesto. Per questo motivo il punteggio di esecuzione su BIRD è considerato una misura più concreta della capacità di un sistema di produrre query utilizzabili in ambienti operativi.

La categoria Single Trained Model è rilevante anche dal punto di vista architetturale. In questa modalità il risultato misura soprattutto la capacità del modello o della capacità specializzata, riducendo il ruolo di ensemble, sistemi agentici complessi, pipeline di retrieval molto elaborate o meccanismi esterni che possono migliorare artificialmente la prestazione. Il risultato di Gemini-SQL2 indica quindi un miglioramento nella comprensione strutturale del linguaggio SQL e nella capacità di Gemini 3.1 Pro di mappare richieste naturali su schemi relazionali complessi.

La distanza dalla prestazione umana resta comunque significativa. Il benchmark BIRD indica per gli esperti umani un livello di accuratezza del 92,96%, lasciando a Gemini-SQL2 un divario di circa 12,9 punti percentuali. Questo dato è importante per l’adozione enterprise: un sistema con accuratezza dell’80,04% può essere molto utile come acceleratore per analisti, sviluppatori e utenti business, ma non elimina la necessità di validazione, controllo dei risultati e gestione degli errori, soprattutto quando le query incidono su report finanziari, metriche operative, processi decisionali o automazioni aziendali.

L’elemento tecnico più interessante è il passaggio da SQL “plausibile” a SQL “execution-ready”. Nei sistemi generativi, una query può apparire corretta a livello sintattico ma fallire in esecuzione, usare colonne sbagliate, applicare condizioni non coerenti o restituire risultati differenti da quelli attesi. Gemini-SQL2 viene invece valutato sulla capacità di produrre query che funzionano realmente sul database. Questo orientamento sposta l’attenzione dal completamento testuale alla verifica semantica, cioè alla corrispondenza tra richiesta dell’utente, struttura dei dati e risultato ottenuto.

Per i servizi dati di Google, una capacità di questo tipo può rafforzare le interfacce in linguaggio naturale già presenti o previste in ambienti come BigQuery, AlloyDB, Cloud SQL e strumenti di analisi integrati in Google Cloud. La possibilità di interrogare database complessi senza scrivere manualmente SQL può ridurre la distanza tra utenti business e dati aziendali, ma richiede sistemi capaci di comprendere non solo la grammatica SQL, ma anche il modello dati specifico dell’organizzazione, le convenzioni sui nomi, le metriche interne e le regole di business.

Gemini-SQL2 non elimina il bisogno di una pipeline di controllo. In un ambiente di produzione, un sistema text-to-SQL dovrebbe includere analisi dello schema, recupero dei metadati, limitazione dei permessi, esecuzione in sandbox, validazione dei risultati, gestione degli errori e, nei casi sensibili, revisione umana. L’accuratezza di esecuzione è un progresso importante, ma il rischio di query costose, incomplete o semanticamente ambigue resta un problema concreto quando si lavora su database aziendali estesi.

La tecnologia text-to-SQL è particolarmente utile nei contesti in cui molte richieste analitiche sono ripetitive ma non standardizzate. Un responsabile vendite può chiedere l’andamento dei ricavi per area geografica, un team logistico può analizzare ritardi per magazzino, un reparto finance può confrontare margini e costi su periodi differenti. In tutti questi casi, il sistema deve trasformare una domanda naturale in una query che rifletta correttamente filtri, raggruppamenti, granularità temporale e significato delle metriche. L’errore non è solo tecnico: una query sbagliata può generare una lettura errata del business.

Gemini-SQL2 mostra quindi l’evoluzione dei modelli linguistici verso compiti più strutturati e verificabili. La generazione di SQL non richiede soltanto capacità linguistiche, ma ragionamento su schemi, vincoli, relazioni e risultati eseguibili. Il fatto che Google abbia scelto come metrica principale l’accuratezza di esecuzione conferma una tendenza più ampia: nei sistemi AI applicati al lavoro aziendale, la qualità non viene misurata dalla fluidità della risposta, ma dalla capacità di produrre output controllabili, integrabili e verificabili nei sistemi reali.

Di Fantasy