I ricercatori mostrano come la potatura della rete può distorcere i modelli di deep learning
I ricercatori di informatica hanno dimostrato che una tecnica ampiamente utilizzata chiamata potatura della rete neurale può influire negativamente sulle prestazioni dei modelli di apprendimento profondo, hanno descritto in dettaglio le cause di questi problemi di prestazioni e hanno dimostrato una tecnica per affrontare la sfida.
Il deep learning è un tipo di intelligenza artificiale che può essere utilizzata per classificare cose, come immagini, testo o suoni. Ad esempio, può essere utilizzato per identificare le persone in base alle immagini del viso. Tuttavia, i modelli di deep learning spesso richiedono molte risorse informatiche per funzionare. Ciò pone delle sfide quando un modello di apprendimento profondo viene messo in pratica per alcune applicazioni.
Per affrontare queste sfide, alcuni sistemi si impegnano nella “potatura della rete neurale”. Ciò rende effettivamente il modello di deep learning più compatto e, quindi, in grado di funzionare utilizzando meno risorse di calcolo.
“Tuttavia, la nostra ricerca mostra che questa potatura della rete può compromettere la capacità dei modelli di deep learning di identificare alcuni gruppi”, afferma Jung-Eun Kim, coautore di un articolo sul lavoro e assistente professore di informatica presso lo Stato della Carolina del Nord Università.
“Ad esempio, se un sistema di sicurezza utilizza il deep learning per scansionare i volti delle persone al fine di determinare se hanno accesso a un edificio, il modello di deep learning dovrebbe essere reso compatto in modo che possa funzionare in modo efficiente. Questo può funzionare bene la maggior parte delle volte, ma la potatura della rete potrebbe anche influenzare la capacità del modello di deep learning di identificare alcuni volti”.
Nel loro nuovo articolo, i ricercatori spiegano perché la potatura della rete può influire negativamente sulle prestazioni del modello nell’identificare determinati gruppi – che la letteratura chiama “gruppi di minoranza” – e dimostrare una nuova tecnica per affrontare queste sfide.
Due fattori spiegano come l’eliminazione della rete può compromettere le prestazioni dei modelli di deep learning.
In termini tecnici, questi due fattori sono: disparità nelle norme del gradiente tra i gruppi; e disparità nelle norme dell’Assia associate alle imprecisioni dei dati di un gruppo. In termini pratici, ciò significa che i modelli di deep learning possono diventare meno accurati nel riconoscere categorie specifiche di immagini, suoni o testo. In particolare, la potatura della rete può amplificare le carenze di accuratezza che già esistevano nel modello.
Ad esempio, se un modello di deep learning viene addestrato a riconoscere i volti utilizzando un set di dati che include i volti di 100 bianchi e 60 asiatici, potrebbe essere più preciso nel riconoscere i volti bianchi, ma potrebbe comunque ottenere prestazioni adeguate per il riconoscimento dei volti asiatici . Dopo lo sfoltimento della rete, è più probabile che il modello non sia in grado di riconoscere alcuni volti asiatici.
“La carenza potrebbe non essere stata evidente nel modello originale, ma poiché è amplificata dalla potatura della rete, la carenza potrebbe diventare evidente”, afferma Kim.
“Per mitigare questo problema, abbiamo dimostrato un approccio che utilizza tecniche matematiche per equalizzare i gruppi utilizzati dal modello di deep learning per classificare i campioni di dati”, afferma Kim. “In altre parole, stiamo usando algoritmi per colmare il divario di precisione tra i gruppi”.
Durante i test, i ricercatori hanno dimostrato che l’utilizzo della loro tecnica di mitigazione ha migliorato l’equità di un modello di deep learning che era stato sottoposto a potatura della rete, riportandolo essenzialmente ai livelli di accuratezza precedenti alla potatura.
“Penso che l’aspetto più importante di questo lavoro sia che ora abbiamo una comprensione più approfondita di come esattamente la potatura della rete può influenzare le prestazioni dei modelli di deep learning per identificare i gruppi minoritari, sia teoricamente che empiricamente”, afferma Kim. “Siamo inoltre disponibili a collaborare con i partner per identificare gli impatti sconosciuti o trascurati delle tecniche di riduzione dei modelli, in particolare nelle applicazioni del mondo reale per i modelli di deep learning”.
Il documento, “La potatura ha un impatto disparato sull’accuratezza del modello”, sarà presentato alla 36a conferenza sui sistemi di elaborazione delle informazioni neurali (NeurIPS 2022), che si terrà dal 28 novembre al 28 dicembre. 9 a New Orleans. Il primo autore dell’articolo è Cuong Tran della Syracuse University. L’articolo è stato co-autore del lavoro di Ferdinando Fioretto di Syracuse e di Rakshit Naidu della Carnegie Mellon University.
Il lavoro è stato svolto con il supporto della National Science Foundation, nell’ambito delle sovvenzioni SaTC-1945541, SaTC-2133169 e CAREER-2143706; oltre a un Google Research Scholar Award e un Amazon Research Award.