Nel campo dell’intelligenza artificiale, la capacità dei modelli di generalizzare efficacemente è fondamentale per affrontare compiti complessi e variabili. Tradizionalmente, i modelli di linguaggio di grandi dimensioni (LLM) e i modelli di linguaggio visivo (VLM) sono stati addestrati attraverso un processo noto come “fine-tuning supervisionato” (SFT), che implica l’uso di esempi etichettati manualmente per affinare le loro capacità. Tuttavia, un recente studio condotto dall’Università di Hong Kong e dall’Università della California, Berkeley, ha messo in discussione questa pratica, suggerendo che una minore supervisione possa effettivamente migliorare la capacità di generalizzazione dei modelli AI.

Il fine-tuning supervisionato è stato a lungo considerato lo standard per l’addestramento di LLM e VLM. In questo processo, i modelli pre-addestrati su grandi quantità di dati grezzi vengono successivamente affinati utilizzando set di dati contenenti esempi etichettati manualmente, spesso in formato domanda/risposta o richiesta/risposta. Questo approccio mira a orientare il comportamento del modello verso compiti specifici per i quali è stato progettato. Tuttavia, la raccolta di dati etichettati è un processo lento e costoso, rappresentando un collo di bottiglia per molte aziende e laboratori di ricerca.

In risposta alle limitazioni del SFT, sono emersi approcci basati sull’apprendimento per rinforzo (RL), in cui il modello viene lasciato apprendere autonomamente attraverso l’interazione con l’ambiente, senza la necessità di esempi etichettati manualmente. Un esempio significativo di questo approccio è DeepSeek-R1, un modello sviluppato da OpenAI che utilizza principalmente l’apprendimento per rinforzo per affrontare compiti di ragionamento complessi.

Un problema chiave nei sistemi di machine learning è l’overfitting, in cui il modello si adatta troppo strettamente ai dati di addestramento, fallendo nel generalizzare a nuovi esempi. Durante l’addestramento, il modello può dare l’impressione di aver appreso il compito, mentre in realtà ha semplicemente memorizzato gli esempi di addestramento. Nei modelli AI di grandi dimensioni, separare la generalizzazione dalla memorizzazione può essere difficile.

Lo studio condotto dalle due università ha esaminato le capacità di generalizzazione dei modelli addestrati tramite RL e SFT in compiti di ragionamento testuali e visivi. Per il ragionamento testuale, un LLM addestrato su un insieme di regole dovrebbe essere in grado di generalizzare a varianti di quelle regole. Nel ragionamento visivo, un VLM dovrebbe mantenere coerenza nelle prestazioni del compito, anche quando affronta nuove situazioni o variazioni nei dati. I risultati hanno mostrato che i modelli addestrati con meno supervisione, attraverso l’apprendimento autonomo, hanno una capacità di generalizzazione superiore rispetto a quelli addestrati con SFT.

Questi risultati suggeriscono che ridurre la dipendenza da dati etichettati manualmente e promuovere l’apprendimento autonomo potrebbe portare a modelli AI più robusti e adattabili. Questo approccio potrebbe non solo ridurre i costi e il tempo necessari per l’addestramento, ma anche migliorare la capacità dei modelli di affrontare una varietà più ampia di compiti e situazioni, aumentando la loro efficacia in scenari del mondo reale.

In conclusione, mentre il fine-tuning supervisionato ha svolto un ruolo cruciale nello sviluppo dei modelli AI, l’evidenza emergente suggerisce che una minore supervisione e un maggiore apprendimento autonomo possano portare a risultati superiori in termini di generalizzazione e adattabilità. Questa scoperta apre nuove prospettive per la ricerca e lo sviluppo nell’ambito dell’intelligenza artificiale, indicando una direzione verso modelli più indipendenti e capaci di apprendere in modo più efficiente

Di Fantasy