Come addestrare il tuo LLM (in modo efficiente)
Le aziende, che hanno rilasciato LLM con centinaia e miliardi di parametri, stanno ora facendo marcia indietro rispetto alla filosofia generale “Bigger is Better”. Viene offerto aiuto per riparare i costi irragionevoli che derivano dalle alte promesse degli LLM.
La scorsa settimana la piattaforma di intelligenza artificiale open source Hugging Face ha pubblicato un blog sulle difficoltà pratiche legate all’addestramento di modelli linguistici di grandi dimensioni. Più grande è il modello, maggiore è la necessità di GPU.
BLOOM-176B di Hugging Face , rilasciato a luglio di quest’anno, avrebbe bisogno di GPU A100 da 80 GB moltiplicate per 8 volte solo per fare l’inferenza. Il costo per ognuno dei quali sarebbe di 15.000 USD. Il post menzionava che per mettere a punto lo stesso modello sarebbero state necessarie 72 GPU portando il costo cumulativo per addestrare il modello una volta a una cifra astronomica.
Subito dopo aver addestrato BLOOM-176B , Hugging Face ha iniziato a cercare modi per eseguire il modello utilizzando GPU inferiori con lo stesso livello di prestazioni. L’azienda ha collaborato con la comunità di ricerca open source BigScience per elaborare un approccio che integrasse l’inferenza Int8 nella formazione.
Quantizzazione del modello abbracciando il viso
Il blog è stato pubblicato insieme a un documento di ricerca intitolato “LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale” che discuteva un nuovo metodo per la moltiplicazione di matrici Int8 per addestrare i livelli di feed-forward e di proiezione dell’attenzione nei trasformatori. Durante i test è stato riscontrato che la procedura ha ridotto della metà la memoria necessaria per l’inferenza mantenendo le prestazioni predittive del modello. In primo luogo, le proprietà delle caratteristiche emergenti altamente sistematiche negli LLM che sono responsabili dell’attenzione e delle prestazioni predittive del trasformatore dovevano essere comprese e aggirate. Quindi, i parametri 175B sono stati caricati con un checkpoint a 16/32 bit che poteva essere convertito in Int8 e utilizzato immediatamente. Il team ha chiamato la nuova procedura di quantizzazione in due parti, LLM.int8().
L’obiettivo principale alla base della ricerca secondo Hugging Face era quello di creare LLM che in passato non si adattavano alla memoria della GPU rendendoli più accessibili. Ciò apre la ricerca e democratizza in larga misura gli LLM, il che non era possibile a causa della memoria GPU limitata, soprattutto nel caso di ricercatori e aziende con risorse limitate. Il documento ha anche ammesso che stava ironicamente ampliando la disparità tra le organizzazioni più piccole e bisognose e Google , grazie alle sue scoperte. Ora le organizzazioni che erano piene di soldi potevano addestrare più modelli utilizzando anche lo stesso numero di GPU (che è già più delle organizzazioni più piccole).
Il rilascio del documento ha ricevuto elogi da molti esperti, tra cui l’ex direttore dell’intelligenza artificiale e della visione del pilota automatico di Tesla , Andrei Karpathy .
Il concetto di quantizzazione del modello è diventato una moda recente poiché i costi di elaborazione crescono in modo esponenziale. Usandolo, i dati del modello vengono convertiti da una rappresentazione a virgola mobile a una rappresentazione di precisione inferiore che di solito utilizza numeri interi a 8 bit. L’anno scorso, le GPU NVIDIA hanno utilizzato i Tensor Core a 8 bit più veloci ed economici per calcolare la convoluzione e la moltiplicazione di matrici. Ciò ha prodotto una maggiore velocità effettiva di calcolo, che ha aiutato in particolare con i livelli limitati di calcolo.
Aperto e trasparente è uguale democratico?
A maggio, Meta ha rilasciato Open Pretrained Transformer (OPT-175B), pubblicizzandolo come il primo modello di linguaggio di grandi dimensioni open source. Il blog pubblicato da Meta intitolato “Democratizzare l’accesso ai modelli linguistici su larga scala” è stata una prova di come il gigante della tecnologia stesse compiendo passi nella giusta direzione per rendere gli LLM accessibili a tutti. Il documento di ricerca pubblicato insieme a OPT-175B includeva sia il modello preaddestrato che il codice necessario per addestrare l’LLM. Tuttavia, vale la pena ricordare che questa apertura e trasparenza, sebbene lodevole, non è la stessa cosa dell’accesso democratico.
La corsa alla costruzione di grandi modelli linguistici ha un preciso problema di democratizzazione. Anche con le nobili intenzioni di aziende come Hugging Face , c’è un buco che diventa solo più difficile da riempire. In effetti, il costo e il tempo necessari per ridimensionare i modelli di deep learning e addestrare reti neurali con più livelli e parametri stavano bruciando un buco abbastanza evidente anche nelle tasche delle organizzazioni più ricche. Secondo OpenAI , “dal 2012, la quantità di calcolo utilizzata nelle più grandi esecuzioni di addestramento AI è aumentata in modo esponenziale con un tempo di raddoppio di 3,4 mesi”. Entro il 2019, questa metrica è aumentata di un fattore di 300.000.
Meta ha affermato che l’impronta di carbonio di OPT-175B era un settimo di GPT-3 . Sebbene si tratti di una riduzione drastica, bisogna considerare che diversi esperti hanno stimato che i costi di formazione di GPT-3 ammontino a 27,6 milioni di dollari. Ciò significa che l’addestramento dell’OPT-175B costerà ancora qualche milione di dollari. Fortunatamente, il modello è preaddestrato e Meta ha dichiarato che avrebbe fornito la base di codice per addestrare e distribuire il modello “utilizzando solo 16 GPU NVIDIA V100”. Ciò costerebbe comunque circa 400.000 USD, una somma di denaro significativa per un ricercatore o un’azienda indipendente. Meta ha utilizzato le 992 GPU A100 da 80 GB per addestrare il proprio modello, che è notevolmente più veloce del V100.
Un paio di settimane fa, Meta AI ha pubblicato un altro documento intitolato “Oltre le leggi sul ridimensionamento neurale: sconfiggere il ridimensionamento della legge di potenza tramite la potatura dei dati”. Questa volta, il documento ha riconosciuto il processo di calcolo e di consumo energetico del ridimensionamento delle reti neurali e ha offerto un nuovo approccio di eliminazione dei dati che ha classificato l’ordine in cui gli esempi di addestramento dovrebbero essere scartati per ottenere qualsiasi dimensione del set di dati eliminata.
I più grandi modelli linguistici di grandi dimensioni nel corso degli anni, Fonte: Hugging Face
Le organizzazioni tecnologiche di spicco hanno chiaramente preso una leggera deviazione dalla corsa per costruire i più grandi LLM. Le aziende, che hanno rilasciato LLM con centinaia e miliardi di parametri, stanno ora facendo marcia indietro rispetto alla filosofia generale “Bigger is Better”. Viene offerto aiuto per riparare i costi irragionevoli che derivano dalle alte promesse degli LLM. Ciò potrebbe anche derivare dalla consapevolezza che un oligopolio formato con Google , Meta e Microsoft ostacola la qualità complessiva della ricerca sull’IA.