Ricercatori a Shanghai e negli Stati Uniti hanno sviluppato un sistema di generazione di ritratti basato su GAN che consente agli utenti di creare volti nuovi con un livello di controllo finora non disponibile su aspetti individuali come capelli, occhi, occhiali, trame e colore.
Per dimostrare la versatilità del sistema, i creatori hanno fornito un’interfaccia in stile Photoshop in cui un utente può disegnare direttamente elementi di segmentazione semantica che verranno reinterpretati in immagini realistiche e che possono anche essere ottenuti disegnando direttamente su fotografie esistenti.
Nell’esempio seguente, un’immagine dell’attore Daniel Radcliffe viene utilizzata come modello di tracciamento (e l’obiettivo non è quello di produrre una sua somiglianza, ma piuttosto un’immagine generalmente fotorealistica). Man mano che l’utente inserisce vari elementi, inclusi aspetti discreti come gli occhiali, questi vengono identificati e interpretati nell’immagine del disegno di output:
Il documento si intitola SofGAN: A Portrait Image Generator with Dynamic Styling ed è guidato da Anpei Chen e Ruiyang Liu, insieme ad altri due ricercatori della ShanghaiTech University e un altro dell’Università della California a San Diego.
Caratteristiche districante
Il contributo principale del lavoro non è tanto nel fornire una UX user-friendly, ma piuttosto nel “districare” le caratteristiche delle caratteristiche facciali apprese, come la posa e la trama, che consente a SofGAN di generare anche volti che sono ad angoli indiretti rispetto al punto di vista della telecamera.
Poiché le trame sono ora separate dalla geometria, anche la forma del viso e la trama possono essere manipolate come entità separate. In effetti, ciò consente il cambio di razza di un volto di origine, una pratica scandalosa che ora ha un’applicazione potenzialmente utile, per la creazione di set di dati di apprendimento automatico bilanciati dal punto di vista razziale .
SofGAN supporta anche l’invecchiamento artificiale e la regolazione dello stile coerente con gli attributi a un livello granulare non visto in sistemi di segmentazione>immagine simili come GauGAN di NVIDIA e il sistema di rendering neurale basato su giochi di Intel .
SofGAN è in grado di implementare l’invecchiamento come uno stile iterativo.
Un’altra svolta per la metodologia di SofGAN è che l’addestramento non richiede segmentazione accoppiata/immagini reali, ma piuttosto può essere addestrato direttamente su immagini del mondo reale non accoppiate.
I ricercatori affermano che l’architettura “districante” di SofGAN è stata ispirata dai tradizionali sistemi di rendering delle immagini, che scompongono le singole sfaccettature di un’immagine. Nei flussi di lavoro degli effetti visivi, gli elementi per un composito vengono regolarmente suddivisi nei componenti più minuti, con specialisti dedicati a ciascun componente.
Campo di occupazione semantica (SOF)
Per raggiungere questo obiettivo in un quadro di sintesi di immagini di apprendimento automatico , i ricercatori hanno sviluppato un campo di occupazione semantica (SOF), un’estensione del campo di occupazione tradizionale che individua gli elementi componenti dei ritratti facciali. Il SOF è stato addestrato su mappe di segmentazione semantica multi-vista calibrate, ma senza alcuna supervisione della verità sul terreno.
Iterazioni multiple da una singola mappa di segmentazione (in basso a sinistra).
Inoltre, le mappe di segmentazione 2D sono ottenute mediante il ray-tracing dell’output del SOF, prima di essere strutturate da un generatore GAN. Le mappe di segmentazione semantica “sintetiche” sono anche codificate in uno spazio a bassa dimensione tramite un codificatore a tre strati per garantire la continuità dell’output quando il punto di vista viene modificato.
Lo schema di addestramento mescola spazialmente due stili casuali per ogni regione semantica:
L’architettura per SofGAN.
I ricercatori affermano che SofGAN raggiunge una Frechet Inception Distance ( FID ) inferiore rispetto agli attuali approcci alternativi allo stato dell’arte (SOTA), nonché una metrica LPIPS (Learned Perceptual Image Patch Similarity ) più elevata .
I precedenti approcci StyleGAN sono stati spesso ostacolati dall’entanglement delle caratteristiche, in cui gli elementi che compongono un’immagine sono irrimediabilmente legati l’uno all’altro, causando la comparsa di elementi indesiderati accanto a un elemento desiderato (ad es. informato al momento dell’allenamento da un’immagine che mostrava gli orecchini).
La marcia dei raggi viene utilizzata per calcolare il volume delle mappe di segmentazione semantica, consentendo più punti di vista.
Set di dati e formazione
Tre set di dati sono stati utilizzati nello sviluppo di varie implementazioni di SofGAN: CelebAMask-HQ , un repository di 30.000 immagini ad alta risoluzione prese dal set di dati CelebA-HQ; Flickr-Faces-HQ ( FFHQ ) di NVIDIA , che contiene 70.000 immagini, in cui i ricercatori hanno etichettato le immagini con un parser di volti pre-addestrato; e un gruppo autoprodotto di 122 scansioni di ritratti con regioni semantiche etichettate manualmente.
Il SOF è composto da tre sottomoduli addestrabili: l’iper-rete, un ray marcher (vedi immagine sopra) e un classificatore. Il generatore StyleGAN Semantic Instance Wised (SIW) del progetto è configurato in modo simile a StyleGAN2 in alcuni aspetti. L’aumento dei dati viene applicato tramite ridimensionamento e ritaglio casuali e l’addestramento prevede la regolarizzazione del percorso ogni quattro passaggi. L’intera procedura di formazione ha richiesto 22 giorni per raggiungere 800.000 iterazioni su quattro GPU RTX 2080 Ti su CUDA 10.1.
Il documento non menziona la configurazione delle schede 2080, che possono ospitare tra 11 GB e 22 GB di VRAM ciascuna, il che significa che la VRAM totale impiegata per la maggior parte di un mese per addestrare SofGAN è compresa tra 44 GB e 88 GB.
I ricercatori osservano che risultati accettabili, generalizzati e di alto livello hanno cominciato a emergere abbastanza presto durante la formazione, a 1500 iterazioni, tre giorni dopo l’inizio della formazione. Il resto della formazione è stata occupata con il prevedibile, lento strisciare verso l’ottenimento di dettagli fini come i capelli e le sfaccettature degli occhi.
SofGAN generalmente ottiene risultati più realistici da una singola mappa di segmentazione rispetto ai metodi rivali come SPADE e Pix2PixHD di NIVDIA e SEAN .