Miglioramenti nelle immagini generate sinteticamente (GAN)

Chirurgia plastica per volti generati da GAN
Miglioramenti nelle immagini generate sinteticamente (GAN)
Una nuova ricerca dalla Corea del Sud promette di migliorare la qualità dei dati sintetici sui volti creati dai GAN (Generative Adversarial Networks).

Il sistema è in grado di identificare artefatti di immagine prodotti da processi GAN, e di rimediarli, fino al punto di sostituire i capelli che erano oscurati da una cuffia, sostituire parti del viso del tutto mancanti nell’originale, e rimuovere occlusioni come mani e occhiali da sole , e funziona bene anche sulla produzione scenica e architettonica.

Gli approcci più recenti per migliorare la qualità delle immagini generate dal GAN hanno assunto la posizione che gli artefatti sono un rischio professionale del processo, trattando la metodologia come una “ forza della natura ” e i risultati più psichedelici o aberrazionali che può produrre come un inevitabile sottoprodotto.

Invece, la ricerca sudcoreana propone di “ correggere ” le immagini colpite in un modo che non interferisca con la continua catena generativa, identificando le sfaccettature che stanno causando artefatti e riducendo o eliminando la loro influenza nella rete GAN in un luogo semi-supervisionato. livello che supera ed estende i meccanismi di autocorrezione nativi nell’architettura GAN.

Per il progetto, è stato necessario creare un set di dati di immagini etichettati a mano ampiamente applicabili che erano gravemente influenzati dagli artefatti GAN. Inizialmente, i ricercatori hanno utilizzato Frechet Inception Distance ( FID ), una metrica che valuta la qualità dell’output GAN confrontando le caratteristiche nelle immagini, come unità qualificante. Le 10.000 immagini con i punteggi FID più alti su una serie di 200.000 immagini sono state utilizzate come “unità artefatto” discrete. Successivamente i ricercatori hanno etichettato a mano 2.000 immagini generate, classificandole come “normali” o affette da artefatti FID. Quindi è stato creato un modello per classificare il set di dati in campioni del mondo reale artefatto, normale e casuale.

Successivamente, è stato utilizzato Grad-CAM (Mapping di attivazione delle classi ponderato in base al gradiente ) per generare maschere per le regioni interessate da artefatti, automatizzando efficacemente l’etichettatura dei difetti.

Analizzando i primi 20 risultati più colpiti da una serie di 20.000 immagini, vengono generate maschere di segmentazione, nella quale area i risultati rappresentativi attraverso le generazioni (che probabilmente saranno più accurati o convincenti degli artefatti) possono essere sostituiti abbassando l’attivazione di le unità produttrici di manufatti nelle generazioni successive.

La valutazione umana delle correzioni ha portato il 53% delle immagini “riparate” a essere etichettate come “normali”, mentre il 97% delle immagini originali mostra ancora miglioramenti significativi sugli originali.

I ricercatori sostengono che questo metodo, con qualche piccola modifica degli strumenti, può essere adattato anche allo StyleGAN2 di NVIDIA .

I vantaggi dei dati sintetici
Principalmente per quanto riguarda i dati del viso, la scarsità generale di set di dati del mondo reale per la visione artificiale è un ostacolo alla ricerca diversificata in importanti settori di ricerca, come il riconoscimento facciale, il riconoscimento delle emozioni, la ricerca medica e gli studi sulla segmentazione più granulare della topologia del faccia, tra vari altri campi.

L’attuale contraccolpo verso il libero utilizzo dei dati connessi al web e la raccolta ad hoc di immagini di volti del mondo reale da includere nei database dei volti è un ulteriore ostacolo alla ricerca, con un numero crescente di stati e nazioni che reprimono il web-scraping e l’appropriazione delle immagini dei social media per questi scopi.

Negli ultimi dieci anni, un numero limitato di set di dati di volti altamente curati ha offerto rifugio da questo tipo di incertezza, con varie sfide annuali della ricerca pubblica incentrate su di essi. Tuttavia, ciò ha probabilmente portato a progetti di ricerca che hanno orientato le loro metodologie specificamente verso quei set di dati, con risultati anno su anno coerenti e comparabili ottenuti a costo elevato di una mancanza di diversità nel materiale di partenza – una situazione che peggiora ogni anno che la nuova ricerca si limita a questi confini.

Inoltre, alcuni di questi set di dati “tradizionali” sono stati criticati per la mancanza di diversità razziale, il che suggerisce che questi sostenitori del benchmarking potrebbero non essere considerati risorse adeguate nel prossimo futuro.

Ciò significa la necessità di dati del viso di alta qualità che siano realistici, ma in cui le immagini del “mondo reale” che contribuiscono sono state trasformate ben oltre il riconoscimento. Anche se questo uso di dati di volti reali “ in una sola rimozione ” può alla fine innescare problemi sulla provenienza dei volti generati da GAN, è un ostacolo che non è probabile che sorga fino all’avvento di meccanismi legali e tecnici per la raccolta di questo tipo si è affermato; e, per quanto riguarda le possibili modifiche ai quadri legali sulla questione, è ancora un rischio minore rispetto all’utilizzo di immagini di persone reali.