Recenti studi hanno rivelato che la tecnologia di “disapprendimento” — una tecnica usata per far dimenticare ai modelli di intelligenza artificiale (AI) solo le informazioni problematiche — può effettivamente ridurre le prestazioni complessive di questi modelli.
Secondo un report di TechCrunch, i ricercatori di università prestigiose come l’Università di Washington, Princeton, Chicago, USC e Google hanno studiato l’efficacia di questa tecnologia. Hanno scoperto che, invece di migliorare, l’uso del disapprendimento può danneggiare le capacità dei modelli di rispondere correttamente a domande di base.
Il disapprendimento è una tecnica progettata per far sì che i modelli di AI dimentichino informazioni specifiche, come dati personali sensibili o contenuti protetti da copyright, che erano stati raccolti durante l’addestramento.
Di solito, il disapprendimento viene implementato attraverso algoritmi che modificano il modo in cui il modello gestisce i dati, per evitare che certe informazioni vengano utilizzate o restituite. Tuttavia, questo processo può influenzare negativamente la capacità complessiva del modello di fare previsioni accurate.
Un esempio noto di questa tecnologia è stato mostrato dai ricercatori di Microsoft nel dicembre scorso, che hanno dimostrato di riuscire a rimuovere tutte le informazioni sui libri di Harry Potter dal modello open source “Llama 2 7B” di Meta.
Nel loro studio, i ricercatori hanno creato un benchmark chiamato “MUSE” per valutare quanto bene un algoritmo di disapprendimento riesca a prevenire la “restituzione” di dati specifici. MUSE misura se il modello continua a restituire dati specifici che dovrebbe aver dimenticato, come citazioni precise dai libri, pur mantenendo conoscenze generali rilevanti, come sapere che JK Rowling è l’autrice di Harry Potter.
I test hanno mostrato che, sebbene l’algoritmo di disapprendimento riuscisse a far dimenticare certe informazioni, riduceva anche la capacità complessiva del modello di rispondere correttamente a domande. In altre parole, l’uso del disapprendimento comportava una diminuzione dell’utilità generale del modello.
I ricercatori hanno spiegato che progettare un algoritmo efficace per il disapprendimento è difficile perché la conoscenza nei modelli di AI è interconnessa in modo complesso. Ad esempio, se un modello apprende sia dai libri di Harry Potter protetti da copyright sia da una wiki gratuita su Harry Potter, rimuovere i libri potrebbe influenzare anche la conoscenza derivata dalla wiki.