Uno dei grandi dilemmi dell’intelligenza artificiale riguarda la cosiddetta “dimenticanza catastrofica”: la tendenza dei modelli a perdere competenze acquisite in precedenza quando vengono addestrati su nuovi compiti. È come se uno studente, imparando una nuova lingua, dimenticasse improvvisamente la grammatica di quella studiata l’anno prima. Una sfida che da anni accompagna lo sviluppo dei sistemi di machine learning, e che diventa cruciale man mano che i modelli vengono utilizzati in contesti sempre più complessi, dall’elaborazione del linguaggio naturale al controllo robotico.
Un nuovo studio del MIT getta nuova luce su questo problema, suggerendo che l’apprendimento per rinforzo (Reinforcement Learning, RL) rappresenti un metodo molto più efficace della tradizionale messa a punto supervisionata (Supervised Fine-Tuning, SFT) per mantenere la memoria delle conoscenze pregresse. Lo studio, intitolato “RL’s Razor: Why Online Reinforcement Learning Forgets Less”, propone non solo un confronto diretto tra i due approcci, ma anche una vera e propria legge dell’oblio capace di spiegare, in modo semplice e predittivo, perché RL dimentica meno.
I ricercatori hanno mostrato che sia RL che SFT riescono a far apprendere rapidamente a un modello nuovi compiti. Ma la differenza emerge nel lungo periodo: mentre SFT compromette spesso ciò che il modello sapeva fare in precedenza, RL riesce a conservare queste capacità, continuando al tempo stesso ad acquisirne di nuove. La chiave di questo fenomeno, spiegano gli studiosi, sta nella distanza tra il comportamento del modello originale e quello del modello aggiornato.
Per descriverlo, hanno introdotto una formula essenziale: Forgetting ∝ KL(π₀, π). In altre parole, il grado di oblio è proporzionale alla divergenza di Kullback-Leibler (KL) tra la politica di base del modello e quella aggiornata. La divergenza KL misura la differenza tra due distribuzioni di probabilità, e nel caso dell’IA diventa lo strumento che indica quanto un nuovo modello si discosti dal precedente mentre impara un compito inedito. Più alto è questo valore, maggiore sarà la quantità di informazioni dimenticate; al contrario, se il valore rimane basso, il modello mantiene gran parte delle conoscenze acquisite in passato.
Questa scoperta ha un valore pratico enorme: grazie alla divergenza KL, non è necessario tornare sui vecchi dati per valutare se un modello stia dimenticando. Basta misurare la distanza rispetto al comportamento originale per prevedere quanto l’oblio sarà esteso.
Lo studio ha messo alla prova i due metodi in diversi scenari: dai compiti di ragionamento matematico a quelli di domande scientifiche, dall’uso di strumenti digitali fino al controllo robotico. In tutti i casi, RL ha dimostrato di migliorare l’accuratezza sui nuovi compiti senza compromettere le capacità già presenti, mentre SFT tendeva a far regredire il modello su conoscenze precedenti. Ad esempio, nei test di controllo robotico, i modelli addestrati con SFT imparavano a eseguire nuove azioni ma peggioravano in quelle generiche, mentre con RL le capacità si sommavano senza annullarsi.
I ricercatori hanno verificato se altre metriche potessero spiegare il fenomeno meglio della divergenza KL. Hanno analizzato spostamenti nei pesi del modello, cambiamenti nelle rappresentazioni nascoste, distanze totali e altre misure matematiche. Nessuna, però, ha predetto l’oblio con la stessa precisione del KL, confermando la centralità di questa misura.
Il motivo per cui RL risulta più stabile è legato al modo in cui impara. L’apprendimento supervisionato, vincolato a etichette fisse, può condurre il modello a esplorare regioni molto lontane dal suo comportamento originale, causando una perdita significativa di memoria. L’apprendimento per rinforzo, invece, regola gradualmente i pesi del modello sulla base di ricompense, rimanendo vicino alla distribuzione iniziale e limitando così l’oblio.
Per i ricercatori del MIT, questa spiegazione semplice e potente merita un nome evocativo: il “Rasoio del RL”. Come il rasoio di Occam, che invita a preferire la spiegazione più semplice, anche in questo caso la divergenza KL diventa la chiave per comprendere perché i modelli dimenticano e come ridurre al minimo questo fenomeno.
Le implicazioni sono ampie: se i modelli di intelligenza artificiale possono apprendere continuamente senza cancellare il passato, diventano molto più affidabili in scenari reali. Dalla robotica autonoma, che deve sommare competenze senza mai perderle, all’educazione personalizzata, fino alla ricerca scientifica, questa scoperta apre la strada a un’IA capace di costruire una memoria duratura e stratificata.
In conclusione, lo studio del MIT mostra che la sfida della “dimenticanza catastrofica” può essere affrontata con strumenti matematici e approcci di apprendimento più naturali. L’intelligenza artificiale, per diventare davvero simile a quella umana, non deve solo imparare nuove cose velocemente: deve anche saperle custodire nel tempo.