Un nuovo studio canadese ha proposto un approccio innovativo: integrare deliberatamente la compressione JPEG nel processo di addestramento delle reti neurali, ottenendo risultati migliori e maggiore resistenza agli attacchi avversari.
Tradizionalmente, si pensa che gli artefatti JPEG, progettati per la visualizzazione umana e non per l’apprendimento automatico, abbiano effetti negativi sulle reti neurali addestrate su dati JPEG. Un rapporto del 2022 dell’Università del Maryland e di Facebook AI ha confermato che la compressione JPEG influisce negativamente sulle prestazioni delle reti neurali.
Tuttavia, negli ultimi anni è emersa l’idea che la compressione JPEG potrebbe essere sfruttata per migliorare l’addestramento dei modelli. Un precedente studio aveva ottenuto risultati promettenti, ma il modello proposto era troppo complesso e poco pratico.
Il nuovo lavoro, intitolato JPEG Inspired Deep Learning, presenta un’architettura più semplice, applicabile anche a modelli esistenti. I ricercatori dell’Università di Waterloo affermano che il metodo JPEG-DL supera significativamente gli standard di deep learning (DL) in diverse architetture di reti neurali, migliorando l’accuratezza della classificazione fino al 20,9% in alcuni dataset, con solo 128 nuovi parametri da addestrare.
JPEG-DL migliora la capacità della rete di identificare il soggetto principale di un’immagine, riducendo il rumore e le caratteristiche di sfondo che potrebbero confondere il modello. Il sistema utilizza un quantizzatore soft differenziabile, che consente di ottimizzare le immagini in modo più efficace rispetto alla codifica JPEG tradizionale, permettendo così un adattamento congiunto dei parametri del modello e della compressione JPEG.
Il documento evidenzia che la compressione JPEG è progettata per la visione umana e, di conseguenza, elimina dettagli considerati non essenziali. Questo approccio può rivelarsi vantaggioso per le reti neurali, che non sono in grado di distinguere tra dettagli importanti e artefatti.
JPEG-DL è stato testato su diverse architetture di modelli, come EfficientFormer, ResNet, e VGG, utilizzando vari set di dati come Stanford Dogs e Oxford Flowers. I risultati hanno dimostrato miglioramenti consistenti nella precisione della classificazione, con JPEG-DL che offre guadagni significativi anche nei test con attacchi avversari.