MosaicML ha recentemente presentato la sua più recente ricerca dal titolo “Oltre il Chinchilla-Ottimale: Considerare l’Inferenza nelle Leggi di Ridimensionamento dei Modelli Linguistici”. Questo studio sfida le tradizionali leggi di scala dei Large Language Model (LLM) introducendo un nuovo approccio che tiene conto del spesso trascurato costo dell’inferenza.
Fino ad ora, le leggi di scala LLM, come la ben nota legge di scala DeepMind Chinchilla, si sono concentrate principalmente sulla previsione dei cambiamenti nella qualità del modello in base all’aumento dei parametri e dei dati di addestramento. Tuttavia, la ricerca condotta da MosaicML mette in luce una lacuna critica in queste formule, tralasciando l’aspetto cruciale del costo dell’inferenza.
La principale innovazione di questa ricerca consiste nella modifica delle leggi di scala Chinchilla al fine di calcolare il numero ottimale di parametri LLM e la dimensione dei dati preaddestrati. Questo calcolo prende in considerazione entrambi gli aspetti fondamentali dell’addestramento e dell’implementazione di un modello di alta qualità, soddisfacendo al contempo le esigenze dell’inferenza. Gli studiosi hanno condotto un’analisi completa, considerando sia i budget computazionali che i costi reali.
Tra i risultati principali dello studio, troviamo:
- Formazione Economicamente Vantaggiosa: L’approccio di MosaicML permette di addestrare un modello linguistico di grandi dimensioni da zero con un costo inferiore ai 100 dollari, offrendo un’alternativa economica sia per i ricercatori che per le organizzazioni.
- Architettura del Codificatore: Il modello introdotto in questa ricerca è un codificatore, simile a BERT, invece di un decodificatore. Questa scelta sottolinea l’importanza continua dei modelli basati solo su codificatori, con gli autori che esprimono soddisfazione per l’integrazione dei progressi recenti nei modelli LLM in architetture simili a BERT.
La modifica delle leggi di ridimensionamento di Chinchilla si rivela fondamentale per rappresentare in modo accurato le sfide pratiche affrontate dai ricercatori LLM. Gli autori sottolineano che la loro analisi si applica non solo in termini di budget di calcolo, ma anche in scenari reali in cui i costi e le esigenze dell’inferenza sono significativi.
Inoltre, Zhang Peiyuan ha realizzato un altro progresso rivoluzionario con TinyLlama, infrangendo le leggi della scalabilità. Questo assistente di ricerca dell’Università di Singapore ha addestrato un modello da 1,1 miliardi di parametri chiamato TinyLlama, basato su Llama 2, con l’ambizioso obiettivo di preaddestrarlo su 3 trilioni di token.
Con l’aumentare della domanda di inferenza, sembra che si stia assistendo a un cambiamento nel rapporto ottimale tra parametri e token verso modelli più piccoli ma con un addestramento più lungo. Tuttavia, gli autori riconoscono la necessità di ulteriori convalida sperimentali, specialmente in situazioni estreme in cui i token preaddestrati superano i parametri del modello per diversi ordini di grandezza.