Una straordinaria importanza del Data Sketching nei modelli linguistici di grandi dimensioni (LLM)

Nel Data Engineering Summit (DES) 2023, durante il discorso su “Liberare il potere delle strutture dati probabilistiche: ottimizzare storage e prestazioni per i Big Data”, Sudarshan Pakrashi, Direttore di Data Engineering presso Zeotap, ha discusso gli algoritmi statistici ideati per ottimizzare l’uso della memoria nell’archiviazione e nell’interrogazione di grandi insiemi di dati. È stato chiesto se lo sketching dei dati potesse essere utilizzato nei modelli di intelligenza artificiale generativa, come gli LLM.

Pakrashi ha risposto che è possibile e che rappresenta una “grande analogia”. Ha spiegato come, in ogni modello linguistico, siano presenti associazioni tra parole che devono essere mantenute quando si lavora con enormi insiemi di dati di parole. Gli sketch vengono utilizzati per conservarli, poiché il modello interrogherà le frequenze di tali combinazioni.

Lo sketching dei dati è un metodo per riassumere grandi insiemi di dati utilizzando strutture dati compatte in grado di fornire risposte approssimative alle domande sui dati. Nel contesto degli LLM, lo sketching dei dati può essere utilizzato per riassumere il corpus di testo usato per addestrare il modello, il che può aiutare a ridurre i requisiti di memoria del modello e migliorare l’efficienza dell’addestramento.

Ecco alcuni dei benefici dello sketching dei dati negli LLM:

  1. Compressione dei dati: gli LLM possono essere addestrati su rappresentazioni più piccole dei dati originali, riducendo i requisiti di memoria e le risorse computazionali necessarie per la distribuzione e l’addestramento. Ciò è particolarmente utile con risorse limitate o grandi insiemi di dati.
  2. Addestramento più rapido: riducendo la quantità di dati che devono essere elaborati, lo sketching dei dati accelera il processo di addestramento, portando a una convergenza più rapida e tempi di addestramento più brevi.
  3. Dati in tempo reale: lo sketching permette agli LLM di elaborare e apprendere dai flussi di dati in modo efficiente, aggiornando automaticamente le loro rappresentazioni interne e generando nuovi campioni basati sui dati più recenti.
  4. Rilevamento di anomalie: lo sketching e il campionamento possono migliorare la qualità degli output degli LLM, identificando e rimuovendo eventuali punti dati anomali.
  5. Esplorazione dei dati: lo sketching può fornire informazioni sulla struttura e le caratteristiche dei grandi insiemi di dati, utili per guidare la progettazione e la configurazione degli LLM.

Tra le tecniche di sketching dei dati utilizzate negli LLM, troviamo il filtro Bloom, i Count-min sketches, HyperLogLog e gli sketch Quantiles. Queste tecniche permettono di rappresentare il vocabolario del corpus di testo e stimare la frequenza delle parole, ottimizzando l’addestramento del modello e migliorando le sue prestazioni generali.

Il filtro Bloom è una struttura dati probabilistica che verifica in modo efficiente se un elemento è presente in un insieme. Può essere utilizzato per rappresentare il vocabolario del corpus di testo utilizzato per addestrare il modello, permettendo al modello di conservare il vocabolario in una memoria ridotta.

I Count-min sketches sono un altro tipo di struttura dati probabilistica che stima in modo efficiente la frequenza degli elementi in un insieme. Possono essere utilizzati per stimare la frequenza delle parole nel corpus di testo, contribuendo all’ottimizzazione dell’addestramento del modello.

HyperLogLog è un altro algoritmo probabilistico utilizzato per stimare il numero di elementi distinti in un insieme di dati di grandi dimensioni. Questo algoritmo può essere applicato agli LLM per gestire la complessità e la dimensione dei dati utilizzati per l’addestramento.

Gli sketch Quantiles sono un’altra tecnica che fornisce risposte approssimative a domande su percentili, mediane o altre statistiche di ordine di un insieme di dati. Essi sono simili al campionamento, il processo di selezione di un sottoinsieme di dati per rappresentare l’intero insieme di dati. Questo approccio può essere utilizzato negli LLM per ottenere informazioni utili e affinare ulteriormente il modello.

In sintesi, il data sketching può avere un impatto significativo sull’efficienza e sulle prestazioni degli LLM, offrendo diversi vantaggi come la compressione dei dati, l’addestramento più rapido, l’elaborazione dei dati in tempo reale, il rilevamento delle anomalie e l’esplorazione dei dati. L’implementazione di queste tecniche può migliorare l’efficacia degli LLM nel generare risposte coerenti e pertinenti, riducendo al contempo i requisiti di memoria e le risorse computazionali necessarie.

Di ihal