Nell’ambito dell’intelligenza artificiale (AI) e dell’apprendimento automatico (ML), i modelli linguistici di grandi dimensioni (LLM) offrono vantaggi ma presentano anche sfide. Questi modelli, addestrati su vasti archivi di testi, racchiudono una grande quantità di linguaggio e conoscenza umana. Tuttavia, la loro capacità di imitare la comprensione umana comporta problematiche legali, etiche e tecnologiche. Un problema rilevante è che possono incorporare nei loro database testi protetti da copyright, dati inesatti o personali.
Per rispettare le leggi e l’etica, è fondamentale che i LLM ‘dimentichino’ i dati problematici. Questo significa rimuovere i dati protetti da copyright e altri contenuti controversi dai modelli. Tuttavia, rimuovere tali dati dai vasti database degli LLM è una sfida complessa.
Esistono varie tecniche per far ‘dimenticare’ ai LLM i dati problematici:
- Filtraggio dei Dati: Questo metodo rimuove i dati indesiderati dai set di addestramento. Tuttavia, può causare la perdita di informazioni utili.
- Metodi del Gradiente: Questi regolano i parametri del modello per eliminare i dati problematici, ma possono influenzare negativamente le prestazioni generali del modello.
- Unlearning nel Contesto: Questa tecnica aggiorna i parametri del modello per rimuovere l’impatto di specifici dati, ma è limitata, soprattutto nei modelli di grandi dimensioni.
Ad esempio, OpenAI ha affrontato cause legali relative all’uso di materiali protetti da copyright nei loro modelli LLM. Un altro caso è quello di Sarah Silverman, dove ChatGPT è stato accusato di generare riassunti dei suoi libri senza autorizzazione.
Una ricerca di Microsoft introduce una nuova tecnica per rimuovere i dati protetti da copyright nei LLM. Si focalizza sul modello Llama2-7b e sull’eliminazione di dati specifici (come i libri di Harry Potter) attraverso tre passaggi:
- Identificazione del Modello Rinforzato: Rafforzare la conoscenza del contenuto da dimenticare.
- Sostituzione delle Espressioni: Cambiare espressioni specifiche con altre più generiche.
- Messa a Punto su Previsioni Alternative: Adattare il modello a nuove previsioni, eliminando effettivamente i dati originali.
Questa tecnica mostra un progresso promettente, ma necessita di ulteriori ricerche: sebbene innovativa, presenta sfide. Ad esempio, non elimina completamente il rischio di fughe di informazioni e deve essere testata su diversi set di dati e modelli.
In conclusione, il post esplora le sfide legali ed etiche nell’uso di LLM, sottolineando la necessità di sviluppare tecniche efficaci per rimuovere i dati protetti da copyright. Le ricerche recenti, come quella di Microsoft, rappresentano passi importanti verso LLM più responsabili ed etici.