Nel cuore della ricerca sull’intelligenza artificiale, un problema antico fa capolino con rinnovata urgenza: come aggiornare un modello già addestrato senza che “dimentichi” ciò che sapeva fare prima? La risposta che emerge da una recente indagine dell’Università dell’Illinois Urbana-Champaign disegna una via pragmatica, quasi artigianale, per migliorare le intelligenze artificiali: intervenire solo su una piccola porzione della struttura, piuttosto che riscrivere il modello da zero.
Il nodo che i ricercatori cercano di sciogliere è il cosiddetto «catastrophic forgetting», ossia la tendenza che un modello ha di perdere competenze già apprese quando viene riaddestrato su nuovi compiti. In scenari pratici, questo si traduce spesso nel fatto che, per fare in modo che un modello si adatti a un nuovo dominio, si debba sacrificare parte della sua capacità in compiti precedenti. Nel tentativo di superare questo compromesso, il gruppo ha proposto di ritoccare soltanto segmenti specifici del modello — ad esempio le sue componenti interne di decisione — affidandosi alla convinzione che la perdita di prestazione non è tanto la cancellazione di ricordi, quanto uno spostamento del “bias” nelle distribuzioni di output.
La loro sperimentazione è stata condotta su due modelli multimodali, in grado cioè di generare risposte da dati visivi e testuali (nello specifico, LLaVA e Qwen 2.5-VL). In questi casi, reinstradare tutto il modello comporta un uso enorme di risorse computazionali — in termini di tempo, costi e anche impatto ambientale. I ricercatori scrivono che «addestrare un nuovo LMM può costare milioni di dollari, settimane di tempo e generare centinaia di tonnellate di CO₂», e perciò diventa urgente trovare strade più leggere per aggiornarlo.
Il risultato sorprendente del loro esperimento è che spesso basta intervenire su moduli ristretti come la proiezione dell’auto-attenzione (self-attention projection). Muovendosi su queste parti, il modello può apprendere nuovi compiti senza sacrificare — o quasi — le sue abilità pregresse. In uno dei casi test, il tuning esclusivo dei layer di “self-attention projection” ha permesso di ottenere un’efficace acquisizione dei compiti target senza cali significativi nelle prestazioni di altri task già addestrati.
Per evitare che il modello venga “spinto” verso bias indesiderati nell’output, i ricercatori suggeriscono di “congelare” alcune componenti — in particolare le proiezioni di uscita (down projection) — e applicare il tuning solo su specifici sotto-moduli del modello. In questo modo si “raffina” il comportamento senza alterare la struttura profonda. Non solo si riducono i rischi di deriva in compiti estranei, ma si contiene anche il dispendio computazionale e il fenomeno della “dimenticanza” come conseguenza di bias drift piuttosto che “cancellazione” pura.
È importante notare che questi risultati non sono stati ancora estesi universalmente: lo studio si concentra su modelli con caratteristiche multimodali e su un insieme limitato di architetture. Gli autori affermano che, per questioni di risorse, non hanno potuto replicare gli esperimenti su una vasta gamma di modelli. Tuttavia, suggeriscono che il principio di “narrow retraining” — ovvero intervenire su fragmenti selezionati del modello — potrebbe essere applicato anche ad altre tipologie di LLM, con le dovute adattazioni.
Questo approccio ha implicazioni profonde sia per le aziende che sfruttano modelli intensivi, sia per la ricerca. Pensare di poter aggiornare modelli sofisticati come GPT o analoghi intervenendo solo su sezioni mirate può significare ridurre notevolmente i costi, accorciare i tempi di messa a punto e limitare gli effetti collaterali indesiderati. È un po’ come riparare un orologio senza smontarlo completamente, restando fedeli alla meccanica originaria ma migliorandola dove serve.