Apprendimento distribuito con differenze di gradiente sparse  Di Rick Blum

Accelerare il ritmo dell’apprendimento automatico
Il professore di ingegneria elettrica e informatica della Lehigh University Rick Blum cerca di rimuovere il collo di bottiglia nelle applicazioni di apprendimento distribuito wireless

  

I dati vengono scagliati contro un modello matematico come granelli di sabbia che svolazzano su un paesaggio roccioso. Alcuni di quei grani navigano semplicemente con un impatto minimo o nullo. Ma alcuni di loro lasciano il segno: testare, indurire e infine rimodellare il paesaggio secondo schemi e fluttuazioni intrinseci che emergono nel tempo.

Efficace? Sì. Efficiente? Non così tanto.

Rick Blum , il professor Robert W. Wieseman di ingegneria elettrica e informatica alla Lehigh University, cerca di portare efficienza alle tecniche di apprendimento distribuito che emergono come cruciali per l’intelligenza artificiale (AI) e l’apprendimento automatico (ML) moderni. In sostanza, il suo obiettivo è scagliare molti meno granelli di dati senza degradare l’impatto complessivo.

Nel documento ” Distributed Learning With Sparsiified Gradient Differences “, pubblicato in un numero speciale incentrato sul ML  dell’IEEE Journal of Selected Topics in Signal Processing , Blum e collaboratori propongono l’uso del “Metodo della discesa graduale con sparsificazione e correzione degli errori” o GD-SEC, per migliorare l’efficienza delle comunicazioni dell’apprendimento automatico condotto in un’architettura wireless “worker-server”. Il numero è stato pubblicato il 17 maggio 2022.

“I problemi nell’ottimizzazione distribuita compaiono in vari scenari che in genere si basano sulle comunicazioni wireless”, afferma. “Latenza, scalabilità e privacy sono sfide fondamentali”.

“Sono stati sviluppati vari algoritmi di ottimizzazione distribuita per risolvere questo problema”, continua, “e uno dei metodi principali consiste nell’utilizzare la classica GD in un’architettura worker-server. In questo ambiente, il server centrale aggiorna i parametri del modello dopo aver aggregato i dati ricevuti da tutti i lavoratori, quindi trasmette i parametri aggiornati ai lavoratori. Ma le prestazioni complessive sono limitate dal fatto che ogni lavoratore deve trasmettere  sempre tutti i  suoi dati   . Quando si addestra una rete neurale profonda, questo può essere nell’ordine di 200 MB da ciascun dispositivo di lavoro a ogni iterazione. Questa fase di comunicazione può facilmente diventare un collo di bottiglia significativo sulle prestazioni complessive, in particolare nei sistemi di apprendimento federato e di intelligenza artificiale perimetrale”.

Attraverso l’uso di GD-SEC, spiega Blum, i requisiti di comunicazione sono notevolmente ridotti. La tecnica utilizza un approccio di compressione dei dati in cui ogni lavoratore imposta a zero i componenti del gradiente di piccola magnitudine, l’equivalente di elaborazione del segnale di non sudare le piccole cose. Il lavoratore trasmette quindi al server solo i restanti componenti diversi da zero. In altre parole, i dati significativi e utilizzabili sono gli unici pacchetti lanciati nel modello.

“I metodi attuali creano una situazione in cui ogni lavoratore ha un costo computazionale costoso; GD-SEC è relativamente economico in cui è necessario un solo passaggio GD per ogni round”, afferma Blum.

I collaboratori del professor Blum in questo progetto includono il suo ex studente  Yicheng Chen ’19G ’21PhD , ora un ingegnere del software con LinkedIn; Martin Takáč , professore associato presso l’Università di Intelligenza Artificiale Mohamed bin Zayed; e  Brian M. Sadler , membro a vita dell’IEEE, scienziato senior per i sistemi intelligenti dell’esercito americano e membro del laboratorio di ricerca dell’esercito.

L’articolo, ” Apprendimento distribuito con differenze di gradiente sparse “, appare nel numero speciale di aprile 2022  dell’IEEE Journal of Selected Topics in Signal Processing .

Informazioni sul Professor Blum Il
Prof. Rick Blum è titolare della cattedra Robert W. Wieseman Endowed in Engineering Engineering. Ha servito come Lead Lehigh PI per il suo DoE Cybersecurity Center (SEEDs) ed è direttore del suo Signal Processing and Communication Research Lab.

Il suo gruppo contribuisce alla teoria fondamentale dell’apprendimento automatico e del processo decisionale statistico mentre illustra questa teoria e i relativi algoritmi impiegando le aree di applicazione della sicurezza informatica, Internet delle cose, sistemi cyberfisici, reti di sensori, reti energetiche, comunicazioni, radar e elaborazione di sensori .

Prima di entrare a far parte della facoltà di Lehigh, è stato membro senior dello staff tecnico presso General Electric Aerospace e si è laureato al corso avanzato di ingegneria di GE. Ha fatto parte del comitato editoriale del  Journal of Advances in Information Fusion  della International Society of Information Fusion. È stato editore associato per  IEEE Transactions on Signal Processing  e per  IEEE Communications Letters . Ha curato numeri speciali per  IEEE Transactions on Signal Processing ,  IEEE Journal of Selected Topics in Signal Processing  e  IEEE Journal on Selected Areas in Communications. È stato membro del SAM Technical Committee (TC) della IEEE Signal Processing Society, del Signal Processing for Communications TC della IEEE Signal Processing Society e del Communications Theory TC della IEEE Communication Society. 

Il Prof. Rick Blum è un IEEE Fellow, un IEEE Signal Processing Society Distinguished Lecturer, un vincitore della medaglia IEEE del Terzo Millennio e un ONR Young Investigator.

Di ihal