I ricercatori di Microsoft hanno sviluppato SPREADSHEETLLM, un framework che permette ai modelli di linguaggio di grandi dimensioni (LLM) di elaborare e analizzare efficacemente i dati complessi dei fogli di calcolo. Questo nuovo approccio migliora significativamente le prestazioni nella comprensione dei fogli di calcolo, riducendo drasticamente i costi computazionali.
Le innovazioni chiave di SPREADSHEETLLM includono:
- SHEETCOMPRESSOR: Un nuovo metodo di codifica che comprime i fogli di calcolo fino al 96%, permettendo agli LLM di gestire set di dati molto più grandi entro i limiti dei token.
- Estrazione Strutturale di Ancoraggio: Identifica le righe e le colonne chiave che definiscono la struttura della tabella, preservando le informazioni critiche sul layout.
- Traduzione Invertita dell’Indice: Codifica in modo efficiente i contenuti e gli indirizzi delle celle per ridurre al minimo la ridondanza.
- Aggregazione Format-Conware: Raggruppa le celle con formati simili per ridurre ulteriormente l’utilizzo dei token.
Negli esperimenti, SPREADSHEETLLM ha raggiunto risultati all’avanguardia nel rilevamento delle tabelle dei fogli di calcolo, superando i metodi precedenti del 12,3%. Ha anche dimostrato forti capacità nelle attività di risposta alle domande sui fogli di calcolo.
I ricercatori hanno testato SPREADSHEETLLM con vari LLM, tra cui GPT-4, GPT-3.5, Llama 2 e altri. Le versioni ottimizzate hanno mostrato risultati promettenti, con GPT-4 che ha raggiunto un punteggio F1 del 78,9% nel rilevamento delle tabelle.
Oltre a migliorare le prestazioni, le tecniche di compressione di SPREADSHEETLLM hanno ridotto i costi di elaborazione del 96% rispetto ai metodi di codifica standard.
Nonostante alcune limitazioni, come la gestione della formattazione complessa, il framework rappresenta un importante passo avanti nell’applicazione degli LLM all’analisi dei fogli di calcolo. I ricercatori suggeriscono che potrebbe consentire interazioni più intelligenti ed efficienti con i dati dei fogli di calcolo in diverse applicazioni.
L’anno scorso, Microsoft Excel ha introdotto un’anteprima pubblica dell’integrazione di Python, eliminando la necessità di software aggiuntivi grazie a connettori integrati e query di alimentazione per Python. Allo stesso modo, il nuovo strumento di fogli di calcolo semplifica l’analisi dei dati complessi sfruttando gli LLM, rendendo più facile per gli utenti gestire attività complesse.