I Large Language Models (LLM), spesso noti come sistemi di intelligenza artificiale addestrati su vasti dataset per predire in modo efficace il proseguimento delle sequenze, sono ora oggetto di una nuova prospettiva.
Un recente studio di ricerca condotto da DeepMind, una filiale di Google specializzata in intelligenza artificiale, suggerisce che gli LLM possano essere considerati potenti strumenti di compressione dati. Gli autori dell’articolo “vedono il problema della predizione attraverso la lente della compressione”, introducendo così un nuovo modo di comprendere le capacità di questi modelli.
I loro esperimenti dimostrano che, apportando alcune modifiche, gli LLM possono comprimere le informazioni in modo altrettanto efficace, e in alcuni casi persino meglio, rispetto agli algoritmi di compressione ampiamente utilizzati. Questa prospettiva apre nuove prospettive per lo sviluppo e la valutazione degli LLM.
Anian Ruoss, un ingegnere di ricerca presso Google DeepMind e coautore dello studio, ha dichiarato: “L’aspetto della compressione nell’apprendimento e nell’intelligenza è noto a diversi ricercatori da molto tempo. Tuttavia, molti ricercatori nel campo dell’apprendimento automatico potrebbero non essere stati a conoscenza di questa fondamentale equivalenza, quindi abbiamo cercato di diffondere queste idee essenziali.”
In sostanza, un modello di machine learning apprende a trasformare i suoi input, come testo o immagini, in uno “spazio latente” che rappresenta le caratteristiche chiave dei dati. Questo spazio latente ha tipicamente meno dimensioni rispetto allo spazio di input, consentendo al modello di comprimere i dati in dimensioni più ridotte, agendo come un compressore dati.
Nel loro studio, i ricercatori di Google DeepMind hanno applicato gli LLM open source per eseguire la codifica aritmetica, un tipo di algoritmo di compressione senza perdita di dati. Ruoss ha spiegato: “Abbiamo potuto applicare questi modelli perché gli LLM vengono addestrati con la perdita logaritmica, che mira a massimizzare la probabilità di sequenze di testo naturali e a ridurre la probabilità di tutte le altre. Ciò genera una distribuzione di probabilità sulle sequenze e una corrispondenza 1-1 con la compressione.”
La compressione senza perdita, come nel caso di algoritmi come gzip, è in grado di ricostruire perfettamente i dati originali dai dati compressi, garantendo l’integrità delle informazioni.
Nel loro studio, i ricercatori hanno valutato le capacità di compressione dei LLM utilizzando sia i modelli “Vanilla” che i modelli “Chinchilla” su dati di testo, immagini e audio. Come previsto, gli LLM hanno ottenuto risultati eccezionali nella compressione del testo. Ad esempio, il modello Chinchilla con 70 miliardi di parametri è riuscito a comprimere i dati fino all’8,3% delle loro dimensioni originali, superando significativamente gzip e LZMA2, che hanno ottenuto rispettivamente il 32,3% e il 23%.
Tuttavia, la scoperta più sorprendente è stata che, nonostante fossero principalmente addestrati su testo, questi modelli hanno raggiunto tassi di compressione notevoli anche su dati di immagini e audio, superando con ampio margine gli algoritmi di compressione specifici per quei tipi di dati come PNG e FLAC.
I ricercatori hanno notato che “i modelli Chinchilla raggiungono queste impressionanti capacità di compressione attraverso un processo di apprendimento in contesto”. L’apprendimento in contesto si riferisce alla capacità del modello di eseguire un’attività basandosi su esempi e informazioni fornite nel prompt.
Inoltre, i risultati hanno mostrato che gli LLM compressori possono anche prevedere modalità inaspettate, tra cui testo e audio, il che indica la possibilità di ulteriori scoperte in questo ambito.
Nonostante questi risultati promettenti, gli LLM non sono attualmente strumenti pratici per la compressione dati rispetto agli algoritmi esistenti, a causa delle loro dimensioni e velocità notevoli.
Ruoss ha commentato: “I compressori tradizionali come gzip rimarranno in uso per un lungo periodo, poiché il loro bilancio tra compressione, velocità ed efficienza è attualmente superiore a quello di qualsiasi altra alternativa.”
I classici algoritmi di compressione sono compatti, con dimensioni che raramente superano alcune centinaia di kilobyte. Al contrario, gli LLM possono raggiungere dimensioni di centinaia di gigabyte e richiedere molto tempo per l’esecuzione su dispositivi di consumo. Ad esempio, mentre gzip può comprimere 1 GB di testo in meno di un minuto su una CPU, un LLM con 3,2 milioni di parametri richiede un’ora per compiere la stessa operazione.
Ruoss ha concluso: “Anche se è teoricamente possibile creare un compressore potente utilizzando modelli linguistici su piccola scala, finora non è stato dimostrato.”
Uno dei risultati più significativi emersi da questa prospettiva di compressione sugli LLM è la comprensione che offre riguardo all’importanza della scala nelle prestazioni di questi modelli. Sebbene sia diffusa l’idea che modelli LLM più grandi siano automaticamente migliori, i ricercatori hanno scoperto che, per ciascun insieme di dati, esiste un punto critico in cui le dimensioni del modello iniziano a influenzare negativamente il tasso di compressione.
Ciò suggerisce che la dimensione del modello non è sempre il fattore determinante per le prestazioni, ma dipende dalla dimensione del dataset e dalla capacità del modello di apprendere informazioni rilevanti.
Ruoss ha affermato: “La compressione offre un approccio basato su principi per valutare la scala. Nell’attuale panorama della modellazione linguistica, il ridimensionamento del modello può sembrare sempre vantaggioso, ma questo è dovuto alla mancanza di dati sufficienti per valutare correttamente le prestazioni. La compressione offre una metrica quantificabile per determinare se le dimensioni del modello sono appropriate, basandosi sul rapporto di compressione.”
Questi risultati potrebbero avere un impatto significativo sull’ulteriore valutazione degli LLM. Ad esempio, un problema critico nell’addestramento degli LLM è la contaminazione dei set di test, che si verifica quando un modello addestrato viene testato sui dati di addestramento, portando a risultati fuorvianti. Questo problema è diventato più urgente con il passaggio della ricerca sull’apprendimento automatico da benchmark accademici curati a dataset estesi provenienti dagli utenti o da fonti web.
Ruoss ha sottolineato che, sebbene il problema della contaminazione dei test set sia complesso, potrebbe essere mitigato utilizzando l’approccio di compressione che tiene conto della complessità del modello, nota come Lunghezza Minima di Descrizione (MDL). “L’MDL penalizza un modello che memorizza semplicemente tutti i dati di addestramento nei suoi parametri a causa della sua complessità eccessiva. Ci auguriamo che i ricercatori adottino questo framework per valutare più frequentemente i loro modelli”, ha detto Ruoss.