Una domanda cruciale ha suscitato dibattiti tra ricercatori, sviluppatori e giuristi: quanto dei dati utilizzati per addestrare i modelli linguistici di grandi dimensioni (LLM) viene effettivamente “memorizzato” dai modelli stessi? Una recente ricerca congiunta di Meta, Google, Nvidia e Cornell ha finalmente fornito una risposta quantificabile, gettando nuova luce sulla capacità di memorizzazione dei LLM e sulle implicazioni legali e etiche di tale fenomeno.

Tradizionalmente, la distinzione tra “memorizzazione” e “generalizzazione” negli LLM è stata sfumata. I modelli, infatti, apprendono schemi statistici dai dati di addestramento, ma è difficile determinare se una risposta specifica sia il risultato di una generalizzazione o di una memorizzazione diretta. Per affrontare questa sfida, il team di ricerca ha adottato un approccio innovativo: addestrare modelli su dati sintetici privi di schemi linguistici preesistenti. In questo scenario, qualsiasi output prodotto dai modelli doveva derivare esclusivamente dalla memorizzazione dei dati di addestramento, poiché non esistevano schemi da generalizzare.

I risultati sono stati sorprendenti: è emerso che ogni parametro del modello memorizza in media circa 3,6 bit di informazioni. Questo valore è stato osservato in modelli con dimensioni variabili da 500.000 a 1,5 miliardi di parametri, suggerendo che la capacità di memorizzazione è una caratteristica intrinseca degli LLM, indipendentemente dalle loro dimensioni.

La capacità degli LLM di memorizzare porzioni significative dei dati di addestramento solleva importanti questioni legali e etiche. In particolare, la possibilità che i modelli riproducano dati protetti da copyright potrebbe avere implicazioni significative in contesti legali, come le cause legali in corso tra fornitori di IA e creatori di contenuti. La ricerca suggerisce che, sebbene i modelli possiedano una notevole capacità di memorizzazione, la loro capacità di generalizzare è altrettanto importante per garantire risposte utili e coerenti.

Questo studio rappresenta un passo fondamentale verso una comprensione più profonda del funzionamento interno degli LLM. La quantificazione della loro capacità di memorizzazione offre agli sviluppatori e ai ricercatori strumenti più precisi per valutare e migliorare le prestazioni dei modelli. Inoltre, fornisce una base per sviluppare strategie che bilancino efficacemente la memorizzazione e la generalizzazione, garantendo al contempo la protezione dei dati sensibili e il rispetto dei diritti d’autore.

Di Fantasy