Il segreto di Harry Potter per l’oblio selettivo nell’IA
Mentre il settore si interroga sull’impiego di materiali coperti da diritti d’autore per formare modelli linguistici di ampio respiro (LLM) come ChatGPT di OpenAI, Llama 2 di Meta e Claude 2 di Anthropic, emerge un interrogativo: è possibile adeguare questi modelli per eliminare specifici contenuti senza ricostruirli da zero?
In una recente pubblicazione sul portale di accesso libero arXiv.org, Ronen Eldan di Microsoft Research e Mark Russinovich di Microsoft Azure introducono un metodo innovativo per raggiungere questo obiettivo: rimuovere ogni traccia dell’universo di Harry Potter, compresi personaggi e storie, dal software open-source Llama 2-7B di Meta.
Secondo gli studiosi di Microsoft: “Anche se l’iniziale preaddestramento del modello ha richiesto oltre 184.000 ore di GPU, in soltanto un’ora di ulteriori regolazioni, abbiamo annullato la capacità del modello di produrre o evocare dettagli legati a Harry Potter.”
Questo progresso rappresenta un’avanzamento chiave verso LLM flessibili e adattabili, essenziali per un’implementazione efficace e sicura a lungo termine.
La Strategia di “Disapprendimento”
I modelli di apprendimento tradizionali tendono a focalizzarsi sull’accumulo o il consolidamento di informazioni. Tuttavia, mancano di meccanismi per “cancellare” o “dimenticare” certe informazioni, come affermano gli autori.
La loro soluzione? Hanno ideato un processo tripartito per emulare l’oblio di specifiche informazioni nei LLM:
- Hanno addestrato un modello sui contenuti dei libri di Harry Potter, identificando i token più strettamente legati, comparandoli con un modello standard.
- Hanno poi sostituito termini specifici di Harry Potter con espressioni generiche, creando previsioni alternative simili a un modello non formatosi su quei contenuti.
- Infine, hanno rifinito il modello standard basandosi su queste previsioni alternative, eliminando di fatto la presenza del testo originale quando richiamato da determinati contesti.
A seguito di test su 300 input riguardanti Harry Potter, Eldan e Russinovich affermano: “Questo potrebbe essere il primo metodo efficace per l’oblio in modelli linguistici generativi”. Hanno scoperto che, dopo solo un’ora di aggiustamenti, il modello era praticamente incapace di ricreare la complessità narrativa di Harry Potter.
Verso un futuro di LLM Adattabili
Sebbene l’approccio necessiti di ulteriori test, la sua efficacia potrebbe essere maggiore con opere di fantasia piuttosto che con testi non narrativi, grazie ai riferimenti unici che le storie immaginarie possono offrire.
Questo esperimento rappresenta un passo significativo verso LLM più etici, adattabili e conformi alle leggi. Come sottolineano gli autori, miglioramenti futuri potrebbero contribuire a rispettare aspetti etici, valori sociali e richieste specifiche degli utenti.
In sintesi, Eldan e Russinovich dichiarano: “Il nostro metodo rappresenta un inizio incoraggiante, ma bisogna esplorare ulteriormente la sua applicazione a diverse tipologie di contenuto”. Oltre a ciò, ricerche future potrebbero definire e ampliare questo approccio per una gamma più ampia di obiettivi nei LLM.
Guardando al futuro, l’oblio selettivo potrebbe diventare essenziale per assicurare che i sistemi di IA siano continuamente in linea con le mutevoli priorità aziendali e sociali.