I Modelli Linguistici di Grandi Dimensioni (LLM) hanno rappresentato una svolta significativa, consentendo applicazioni che spaziano dalla traduzione automatica alla generazione di testi complessi. Tuttavia, una recente ricerca condotta da istituzioni di prestigio come la Carnegie Mellon University, Stanford University, Harvard University e Princeton University, ha sollevato preoccupazioni riguardo a una pratica comune nello sviluppo di questi modelli: l’estensione eccessiva della fase di pre-addestramento.
Tradizionalmente, si è ritenuto che aumentare la quantità di dati di pre-addestramento migliorasse le prestazioni degli LLM. Contrariamente a questa convinzione, lo studio intitolato “Overtrained Language Models Are Harder to Fine-Tune” evidenzia che un pre-addestramento prolungato può rendere i modelli meno adattabili durante le fasi successive di fine-tuning, compromettendo le loro performance complessive.
I ricercatori hanno analizzato due versioni del modello open-source OLMo-1B di AI2: una pre-addestrata su 2,3 trilioni di token e l’altra su 3 trilioni. Nonostante l’incremento del 30% nei dati di addestramento, il modello con 3 trilioni di token ha mostrato una performance inferiore dopo l’instruction tuning, registrando un calo superiore al 2% in diversi benchmark standard. In alcuni casi, la diminuzione delle prestazioni ha raggiunto il 3%, indicando che l’eccessivo pre-addestramento può avere effetti deleteri sull’efficacia del modello.
Lo studio attribuisce questa degradazione a un aumento progressivo della “sensibilità” dei parametri del modello durante il pre-addestramento esteso. Questo rende i modelli più fragili e suscettibili a cambiamenti, influenzando negativamente la loro capacità di adattarsi a nuove istruzioni o compiti specifici durante il fine-tuning.
Questi risultati mettono in discussione l’assunto che “più dati equivalgano a migliori prestazioni” nel contesto degli LLM. La ricerca suggerisce che esiste un punto ottimale di pre-addestramento oltre il quale i benefici diminuiscono e possono emergere effetti negativi. Questo implica la necessità di rivedere le strategie di addestramento, ponendo maggiore enfasi sulla qualità dei dati e sulle metodologie di fine-tuning piuttosto che sulla mera quantità di informazioni processate.