Apprendimento distribuito con differenze di gradiente sparse Di Rick Blum
Accelerare il ritmo dell’apprendimento automatico
Il professore di ingegneria elettrica e informatica della Lehigh University Rick Blum cerca di rimuovere il collo di bottiglia nelle applicazioni di apprendimento distribuito wireless
I dati vengono scagliati contro un modello matematico come granelli di sabbia che svolazzano su un paesaggio roccioso. Alcuni di quei grani navigano semplicemente con un impatto minimo o nullo. Ma alcuni di loro lasciano il segno: testare, indurire e infine rimodellare il paesaggio secondo schemi e fluttuazioni intrinseci che emergono nel tempo.
Efficace? Sì. Efficiente? Non così tanto.
Rick Blum , il professor Robert W. Wieseman di ingegneria elettrica e informatica alla Lehigh University, cerca di portare efficienza alle tecniche di apprendimento distribuito che emergono come cruciali per l’intelligenza artificiale (AI) e l’apprendimento automatico (ML) moderni. In sostanza, il suo obiettivo è scagliare molti meno granelli di dati senza degradare l’impatto complessivo.
Nel documento ” Distributed Learning With Sparsiified Gradient Differences “, pubblicato in un numero speciale incentrato sul ML dell’IEEE Journal of Selected Topics in Signal Processing , Blum e collaboratori propongono l’uso del “Metodo della discesa graduale con sparsificazione e correzione degli errori” o GD-SEC, per migliorare l’efficienza delle comunicazioni dell’apprendimento automatico condotto in un’architettura wireless “worker-server”. Il numero è stato pubblicato il 17 maggio 2022.
“I problemi nell’ottimizzazione distribuita compaiono in vari scenari che in genere si basano sulle comunicazioni wireless”, afferma. “Latenza, scalabilità e privacy sono sfide fondamentali”.
“Sono stati sviluppati vari algoritmi di ottimizzazione distribuita per risolvere questo problema”, continua, “e uno dei metodi principali consiste nell’utilizzare la classica GD in un’architettura worker-server. In questo ambiente, il server centrale aggiorna i parametri del modello dopo aver aggregato i dati ricevuti da tutti i lavoratori, quindi trasmette i parametri aggiornati ai lavoratori. Ma le prestazioni complessive sono limitate dal fatto che ogni lavoratore deve trasmettere sempre tutti i suoi dati . Quando si addestra una rete neurale profonda, questo può essere nell’ordine di 200 MB da ciascun dispositivo di lavoro a ogni iterazione. Questa fase di comunicazione può facilmente diventare un collo di bottiglia significativo sulle prestazioni complessive, in particolare nei sistemi di apprendimento federato e di intelligenza artificiale perimetrale”.
Attraverso l’uso di GD-SEC, spiega Blum, i requisiti di comunicazione sono notevolmente ridotti. La tecnica utilizza un approccio di compressione dei dati in cui ogni lavoratore imposta a zero i componenti del gradiente di piccola magnitudine, l’equivalente di elaborazione del segnale di non sudare le piccole cose. Il lavoratore trasmette quindi al server solo i restanti componenti diversi da zero. In altre parole, i dati significativi e utilizzabili sono gli unici pacchetti lanciati nel modello.
“I metodi attuali creano una situazione in cui ogni lavoratore ha un costo computazionale costoso; GD-SEC è relativamente economico in cui è necessario un solo passaggio GD per ogni round”, afferma Blum.
I collaboratori del professor Blum in questo progetto includono il suo ex studente Yicheng Chen ’19G ’21PhD , ora un ingegnere del software con LinkedIn; Martin Takáč , professore associato presso l’Università di Intelligenza Artificiale Mohamed bin Zayed; e Brian M. Sadler , membro a vita dell’IEEE, scienziato senior per i sistemi intelligenti dell’esercito americano e membro del laboratorio di ricerca dell’esercito.
L’articolo, ” Apprendimento distribuito con differenze di gradiente sparse “, appare nel numero speciale di aprile 2022 dell’IEEE Journal of Selected Topics in Signal Processing .
Informazioni sul Professor Blum Il
Prof. Rick Blum è titolare della cattedra Robert W. Wieseman Endowed in Engineering Engineering. Ha servito come Lead Lehigh PI per il suo DoE Cybersecurity Center (SEEDs) ed è direttore del suo Signal Processing and Communication Research Lab.
Il suo gruppo contribuisce alla teoria fondamentale dell’apprendimento automatico e del processo decisionale statistico mentre illustra questa teoria e i relativi algoritmi impiegando le aree di applicazione della sicurezza informatica, Internet delle cose, sistemi cyberfisici, reti di sensori, reti energetiche, comunicazioni, radar e elaborazione di sensori .
Prima di entrare a far parte della facoltà di Lehigh, è stato membro senior dello staff tecnico presso General Electric Aerospace e si è laureato al corso avanzato di ingegneria di GE. Ha fatto parte del comitato editoriale del Journal of Advances in Information Fusion della International Society of Information Fusion. È stato editore associato per IEEE Transactions on Signal Processing e per IEEE Communications Letters . Ha curato numeri speciali per IEEE Transactions on Signal Processing , IEEE Journal of Selected Topics in Signal Processing e IEEE Journal on Selected Areas in Communications. È stato membro del SAM Technical Committee (TC) della IEEE Signal Processing Society, del Signal Processing for Communications TC della IEEE Signal Processing Society e del Communications Theory TC della IEEE Communication Society.
Il Prof. Rick Blum è un IEEE Fellow, un IEEE Signal Processing Society Distinguished Lecturer, un vincitore della medaglia IEEE del Terzo Millennio e un ONR Young Investigator.