Google ha appena presentato DataGemma, una nuova serie di modelli di intelligenza artificiale open source progettati per affrontare uno dei problemi principali dei modelli linguistici: le “allucinazioni” nelle risposte a domande basate su dati statistici. Questi modelli sono disponibili su Hugging Face per uso accademico e di ricerca.
DataGemma è un aggiornamento dei modelli Gemma esistenti e utilizza i dati di Data Commons, una piattaforma di Google che raccoglie oltre 240 miliardi di punti dati da fonti affidabili in vari settori. I nuovi modelli mirano a migliorare l’accuratezza delle risposte alle query statistiche utilizzando due approcci principali:
- RIG (Retrieval Interleaved Generation): Questo metodo confronta le risposte generate con le statistiche di Data Commons per correggere eventuali errori. Il modello produce una query basata sulla risposta iniziale, la esegue per ottenere i dati corretti e poi aggiorna la risposta con queste informazioni.
- RAG (Retrieval-Augmented Generation): Questo approccio estrae variabili dalla domanda originale per generare una query a Data Commons, recupera le statistiche e le utilizza per migliorare la risposta finale.
I test iniziali mostrano che i modelli DataGemma con RIG migliorano l’accuratezza delle risposte del 5-17% rispetto ai modelli precedenti, raggiungendo un’accuratezza del 58%. RAG offre risultati leggermente inferiori, ma comunque migliori rispetto ai modelli di base.
Questi modelli sono promettenti per migliorare la qualità delle risposte alle domande statistiche, particolarmente per la ricerca e la decisione informata. Google spera che DataGemma stimoli ulteriori ricerche e sviluppi in questo campo.