Recentemente, DeepMind, una sussidiaria di Google, ha pubblicato uno studio che esplora l’uso di dati sintetici generati attraverso tecniche di “distillazione della conoscenza” per migliorare le prestazioni dei modelli linguistici di grandi dimensioni (LLM).
Gli LLM richiedono enormi quantità di dati per l’addestramento. Tuttavia, la disponibilità di dati di alta qualità sta diminuendo, creando un ostacolo significativo per l’ulteriore sviluppo di questi modelli. Inoltre, l’addestramento su larga scala comporta costi elevati e un notevole consumo di risorse computazionali.
Per affrontare queste sfide, DeepMind ha introdotto la tecnica del “Test-Time Compute”. Questo approccio suddivide una query complessa in sottocompiti più gestibili, che il modello risolve sequenzialmente. Ogni sottocompito genera un nuovo prompt, creando una “catena di pensieri” (Chain of Thought, CoT) che guida il modello verso una soluzione accurata. Questo metodo migliora l’efficienza del modello durante la fase di inferenza, consentendo una risoluzione più efficace di problemi complessi.
Lo studio ha applicato il “Test-Time Compute” per generare dati sintetici utilizzando modelli avanzati come l'”o1″ di OpenAI. Questi dati sintetici sono stati poi utilizzati per addestrare nuovi modelli, migliorandone le capacità di inferenza. La distillazione della conoscenza, in questo contesto, implica l’uso di un modello “insegnante” più grande per generare dati che addestrano un modello “studente” più piccolo, trasferendo efficacemente le competenze.
L’utilizzo di dati sintetici offre diversi vantaggi:
- Superamento della scarsità di dati: Consente di creare set di dati di alta qualità in settori dove i dati reali sono limitati o difficili da ottenere.
- Efficienza nell’addestramento: Riduce la necessità di raccolta e pulizia di grandi quantità di dati reali, accelerando il processo di sviluppo.
- Miglioramento delle prestazioni: I modelli addestrati con dati sintetici generati da modelli avanzati mostrano miglioramenti significativi nelle loro capacità di inferenza.
Sebbene l’approccio sia promettente, i ricercatori sottolineano che l’efficacia del “Test-Time Compute” può variare a seconda del tipo di compito. Ad esempio, è altamente efficace in problemi con soluzioni definite, come quelli matematici, ma potrebbe essere meno applicabile in attività creative come la scrittura, dove non esiste una risposta univoca.