DeepMind ha condiviso nuove scoperte che indicano che l’uso di dati generati da modelli linguistici più piccoli e meno costosi (WC) può essere più efficace nell’addestrare modelli linguistici di grandi dimensioni (LLM) rispetto ai dati generati da modelli più grandi e costosi (SE).
Secondo un rapporto di Mark Tech Post, DeepMind ha pubblicato uno studio che esplora un metodo computazionalmente efficiente per migliorare le prestazioni degli LLM utilizzando dati sintetici. I ricercatori hanno scoperto che, contrariamente a quanto si pensava, i modelli più piccoli possono produrre dati di alta qualità per l’addestramento di LLM, senza richiedere le stesse risorse dei modelli più grandi.
La “distillazione della conoscenza” e l'”auto-miglioramento” sono due tecniche comuni per migliorare i LLM. La distillazione della conoscenza implica l’addestramento di un modello più piccolo con dati generati da uno più grande, mentre l’auto-miglioramento utilizza i dati generati dallo stesso modello. Tuttavia, questi metodi possono essere costosi in termini di risorse computazionali e limitano la quantità di dati generabili entro un certo budget.
Per affrontare queste sfide, i ricercatori di DeepMind hanno esplorato l’uso di modelli più piccoli per generare dati sintetici. Hanno confrontato i dati generati da un modello WC, chiamato “Gemma2-9B”, con quelli di un modello SE, “Gemma2-27B”, utilizzando i set di dati MATH e GSM-8K. I risultati mostrano che il modello WC ha prodotto tre volte più campioni rispetto al modello SE con le stesse risorse computazionali.
In particolare, i dati generati dal modello WC avevano un’ampiezza maggiore dell’11% e una diversità superiore dell’86% rispetto ai dati generati dal modello SE. Inoltre, il tasso di falsi positivi (FPR) è aumentato del 7%, ma i dati del WC hanno dimostrato una maggiore capacità di generare una gamma e una varietà di contenuti più ampie.
I modelli addestrati con dati generati dal modello WC hanno mostrato miglioramenti consistenti in vari benchmark. Ad esempio, sono stati ottenuti miglioramenti del 6% nella distillazione della conoscenza e del 5,8% nell’impostazione di miglioramento da debole a forte utilizzando i dati del WC.
In sintesi, nonostante un FPR più elevato, i dati generati dal modello WC hanno dimostrato una maggiore diversità e completezza rispetto a quelli del modello SE. Questo suggerisce che, pur essendo meno costoso, l’uso di un modello WC può portare a una formazione più efficiente degli LLM con lo stesso budget di elaborazione.
DeepMind ha concluso che questo approccio offre una nuova via per addestrare i modelli linguistici in modo più efficiente, riducendo il divario di prestazioni tra modelli piccoli e grandi.