Immagine AI

Google ha rilasciato in open source TabFM, un foundation model dedicato ai dati tabellari, progettato per eseguire classificazione e regressione su nuovi dataset senza dover addestrare nuovamente un modello specifico per ogni caso d’uso. L’obiettivo è semplificare attività come previsione dell’abbandono clienti, rilevamento delle frodi, credit scoring, stima delle vendite o valutazione immobiliare, dove oggi vengono spesso utilizzati modelli ad albero come XGBoost, Random Forest e AdaBoost.

Il punto distintivo di TabFM è l’applicazione dell’in-context learning ai dataset strutturati. Invece di costruire un modello supervisionato separato, ottimizzare gli iperparametri e preparare manualmente nuove feature, il sistema riceve nello stesso input i dati etichettati disponibili e le righe da valutare. Da questa struttura ricava le relazioni tra variabili e produce una previsione in zero-shot, senza una fase aggiuntiva di training sul dataset dell’azienda.

Il problema tecnico dei dati tabellari è diverso da quello del linguaggio naturale. In una tabella, infatti, l’ordine di righe e colonne non cambia il significato delle informazioni, mentre i Transformer tradizionali trattano l’input come una sequenza ordinata. TabFM affronta questa differenza con un’architettura ibrida che combina elementi di TabPFN e TabICL, costruita per interpretare in modo esplicito la struttura bidimensionale del dataset.

Il modello applica un meccanismo di attenzione alternata su righe e colonne. Questo permette di osservare sia le relazioni tra record diversi sia le dipendenze tra le variabili, individuando pattern che nei workflow tradizionali richiederebbero feature engineering manuale. TabFM utilizza inoltre una procedura di row compression: le informazioni di ciascuna riga vengono condensate in un vettore denso, così da ridurre il volume di dati che deve essere elaborato dai livelli successivi del modello.

La fase di inferenza lavora quindi sui vettori compressi attraverso un Transformer dedicato. Questa scelta serve a contenere il costo computazionale quando il numero di righe cresce, mantenendo la possibilità di sfruttare l’in-context learning su dataset strutturati di dimensioni rilevanti. Il sistema è stato preaddestrato esclusivamente su centinaia di milioni di dataset sintetici, generati con modelli causali strutturali per simulare distribuzioni, correlazioni e relazioni tra variabili tipiche dei dati aziendali reali.

Google ha valutato TabFM su TabArena, benchmark composto da 38 dataset di classificazione e 13 di regressione, con dimensioni comprese tra 700 e 150.000 campioni. La versione base effettua una sola inferenza senza tuning e senza cross-validation. La variante TabFM-Ensemble aggiunge feature incrociate e feature basate su decomposizione ai valori singolari, combina 32 modelli e applica una pesatura ottimizzata; per i task di classificazione utilizza anche Platt Scaling per calibrare le probabilità previste.

L’integrazione prevista in BigQuery punta a rendere questo approccio utilizzabile direttamente dai team dati attraverso SQL. Con la funzione AI.PREDICT, sarà possibile eseguire attività di classificazione e regressione senza costruire una pipeline completa di machine learning, portando l’analisi predittiva più vicino ai dataset già presenti nel data warehouse.

Di Fantasy