La nuova analisi sviluppata in Adobe sta fornendo la principale metodologia di deepfake praticabile ed efficiente basata principalmente sui campi di radianza neurale (NeRF), forse la principale innovazione effettiva nella struttura o nel metodo entro i 5 anni a causa dell’emergere dei deepfake nel 2017.

La strategia, intitolata RigNeRF , utilizza 3D morphable face fashions (3DMMs) come strato interstiziale di strumentalità tra l’ingresso specificato (cioè l’identificazione da imporre nel rendering NeRF) e l’area neurale, un modo che è stato ampiamente adottato in tempi recenti dagli approcci di sintesi dei volti della Generative Adversarial Community (GAN), nessuno dei quali ha prodotto strutture di sostituzione del volto mirate e utili per i video.

Contrariamente ai film deepfake convenzionali, nessuno dei contenuti mutevoli raffigurati qui è “reale”, tuttavia in qualche modo è un’area neurale esplorabile che è stata educata su filmati transitori. A destra vediamo il manichino 3D morphable face mannequin (3DMM) che funge da interfaccia tra le manipolazioni specificate (“sorriso”, “guarda a sinistra”, “cerca” e così via.) e i parametri solitamente intrattabili di un neurale Visualizzazione dell’area di radianza. Per un modello ad alta risoluzione di questa clip, insieme a diversi esempi, vedere la pagina web della sfida o i filmati incorporati alla fine di questo testo. Fornitura: https://shahrukhathar.github.io/2022/06/06/RigNeRF.html
I 3DMM sono con successo modelli di volti CGI, i cui parametri possono essere adattati a tecniche di sintesi di immagini di riepilogo extra, simili a NeRF e GAN, che in ogni altro caso sono difficili da gestire.

Quello che vedi nell’immagine sopra (foto al centro, uomo con maglietta blu), oltre all’immagine immediatamente sotto (foto a sinistra, uomo con maglietta blu), non è semplicemente un video “reale” in cui una piccola macchia di La faccia “finta” è stata sovrapposta, tuttavia una scena completamente sintetizzata che esiste esclusivamente come rendering neurale volumetrico, insieme al fisico e allo sfondo:

 

Nell’istanza immediatamente sopra, il video della vita reale sulla destra (ragazza in abito viola) viene utilizzato per “fantoccio” l’identificazione catturata (uomo in camicia blu) a sinistra tramite RigNeRF, che (dichiarano gli autori) è il sistema primario basato su NeRF per realizzare la separazione di posa ed espressione mentre con la capacità di eseguire nuove sintesi di viste.

Il maschio a sinistra nell’immagine sopra è stato “catturato” da un video di 70 secondi dello smartphone e le informazioni di immissione (insieme ai dati completi della scena) sono state successivamente istruite attraverso 4 GPU V100 per acquisire la scena.

Dal momento che i rig parametrici in stile 3DMM sono disponibili anche come proxy CGI parametrici per l’intero corpo (piuttosto che semplici rig per il viso), RigNeRF apre senza dubbio il potenziale dei deepfake dell’intero corpo nel luogo in cui il movimento, la consistenza e l’espressione umani effettivi vengono consegnati alla CGI -livello parametrico basato, che potrebbe quindi tradurre il movimento e l’espressione in ambienti e filmati NeRF renderizzati.

Per quanto riguarda RigNeRF, si qualifica come una metodologia deepfake nel senso attuale che i titoli percepiscono il periodo di tempo? O è semplicemente un altro semi-zoppicante eseguito anche su DeepFaceLab e diverse tecniche di deepfake autoencoder dell’era 2017 ad alta intensità di lavoro?

I ricercatori del nuovissimo documento sono inequivocabili a questo livello:

“Essendo un modo in grado di rianimare i volti, RigNeRF è suscettibile di uso improprio da parte di attori malsani per generare deep-fake”.

Il nuovissimo articolo si intitola RigNeRF: Totally Controllable Neural 3D Portraits e proviene da ShahRukh Atha dello Stonybrook College, uno stagista presso Adobe durante la crescita di RigNeRF, e 4 diversi autori di Adobe Analysis.

Passati Deepfake basati principalmente su Autoencoder
Quasi tutti i deepfake virali che hanno catturato i titoli dei giornali negli ultimi due anni sono prodotti da tecniche basate su autoencoder , derivate dal codice che è stato rivelato sul subreddit r/deepfakes prontamente bandito nel 2017, anche se non prima di essere copiato su GitHub, il luogo in cui attualmente è stato biforcato oltre mille istanze , non da ultimo nella distribuzione favorita (se controversa ) di DeepFaceLab , e allo stesso modo nella sfida FaceSwap .

Oltre a GAN e NeRF, i framework di autoencoder hanno anche sperimentato i 3DMM come “suggerimenti” per migliorare i framework di sintesi facciale. Un esempio di ciò è la sfida HifiFace del luglio 2021. Tuttavia, finora nessuna iniziativa utilizzabile o alla moda sembra essersi sviluppata da questo metodo.

Le informazioni per le scene RigNeRF sono ottenute catturando filmati veloci da smartphone. Per la sfida, i ricercatori di RigNeRF hanno utilizzato un iPhone XR o un iPhone 12 per tutti gli esperimenti. Per la prima metà del sequestro, al soggetto viene chiesto di eseguire una varietà di espressioni facciali e discorsi mantenendo comunque la testa perché la fotocamera viene spostata attorno a loro.

Per la seconda metà della cattura, la fotocamera mantiene una posizione rigida e veloce, mentre l’argomento dovrebbe spostare la testa mentre rivela una varietà di espressioni. I 40-70 secondi di metraggio risultanti (circa 1200-2100 fotogrammi) indicano il set di dati completo che potrebbe essere utilizzato per allenare il manichino.

Ridurre la raccolta di informazioni
Al contrario, le tecniche di autoencoder simili a DeepFaceLab richiedono la raccolta e la cura relativamente laboriosa di centinaia di immagini diverse, in genere tratte da film di YouTube e diversi canali di social media, oltre che da film (nel caso dei deepfake delle star del cinema).

Le modalità di autoencoder istruite risultanti sono talvolta pensate per l’uso in un’ampia gamma di condizioni. Tuttavia, probabilmente i deepfaker delle “star del cinema” più esigenti potrebbero preparare da zero le mode complete per un singolo video, anche se il coaching può richiedere una settimana o più.

Indipendentemente dall’avviso di avvertimento dei ricercatori del nuovissimo articolo, sembra improbabile che il “patchwork” e i set di dati ampiamente assemblati che alimentano il porno con intelligenza artificiale oltre alle “rifusioni deepfake” di YouTube / TikTok alla moda non forniscano fini accettabili e costanti in un sistema deepfake simile a RigNeRF , che ha una metodologia specifica per la scena. Date le restrizioni al sequestro di informazioni delineate all’interno del nuovo lavoro, ciò potrebbe mostrare, in una certa misura, un’ulteriore tutela in opposizione all’appropriazione indebita informale dell’identificazione da parte di deepfaker dannosi.

Adattamento di NeRF a Deepfake Video
NeRF è una metodologia basata sulla fotogrammetria mediante la quale una piccola varietà di filmati presi da numerosi punti di vista vengono assemblati in un’area neurale 3D esplorabile. Questo metodo è diventato famoso all’inizio di questi 12 mesi quando NVIDIA ha presentato il suo sistema NeRF immediato , in grado di ridurre le istanze di coaching esorbitanti per NeRF fino a pochi minuti e persino secondi:

 

NeRF immediato. Fornitura: https://www.youtube.com/watch?v=DJ2hcC1orc4
La scena dell’Area di Radianza Neurale che ne consegue è in realtà un ambiente statico che può essere esplorato, ma che è difficile da modificare . I ricercatori notano che due precedenti iniziative basate su NeRF – HyperNeRF + E/P e NerFACE – hanno preso una pugnalata alla sintesi video facciale e (apparentemente per motivi di completezza e diligenza) hanno posto RigNeRF in opposizione a questi due framework in un sferico di prova:

 

 

Una comparabilità qualitativa tra RigNeRF, HyperNeRF e NerFACE. Guarda i filmati di fornitura collegati e il PDF per variazioni di qualità superiore. Fornitura di immagini statiche: https://arxiv.org/pdf/2012.03065.pdf
Tuttavia, in questo caso i risultati, che favoriscono RigNeRF, sono piuttosto anomali, per 2 cause: in primo luogo, gli autori osservano che “non c’è alcun lavoro presente per una comparabilità mela-mela”; in secondo luogo, ciò ha reso necessaria la limitazione delle capacità di RigNeRF per corrispondere almeno in parte alle prestazioni extra limitate delle tecniche precedenti.

Poiché i risultati di solito non sono un miglioramento incrementale rispetto al lavoro precedente, tuttavia in qualche modo significano una “svolta” nella modificabilità e nell’utilità di NeRF, lasceremo il test sferico a parte e, in sostituzione, vedremo cosa sta facendo RigNeRF in un modo diverso dai suoi predecessori.

Forze miste
La prima limitazione di NerFACE, che può creare una gestione di posa/espressione in un ambiente NeRF, è che presuppone che il filmato di alimentazione possa essere catturato con una fotocamera statica. Ciò significa con successo che non è in grado di produrre nuove visioni che si estendono oltre i suoi limiti di presa. Ciò produce un sistema che può creare “ritratti mutevoli”, tuttavia non adatto per video in stile deepfake.

HyperNeRF, invece, pur essendo in grado di generare visioni nuove e iperreali, non ha strumenti che gli consentano di alterare le pose della testa o le espressioni facciali, il che ancora una volta non porta ad alcuna forma di concorrente per i deepfake basati su autoencoder.

RigNeRF è pronto a combinare queste due funzionalità remote creando un'”area canonica”, una linea di base predefinita da cui possono essere attivate deviazioni e deformazioni tramite l’ingresso dal modulo 3DMM.

 

Realizzare una ‘area canonica’ (nessuna posa, nessuna espressione), su cui possono agire le deformazioni (cioè pose ed espressioni) prodotte attraverso il 3DMM.
Poiché il sistema 3DMM non sarà abbinato con precisione all’argomento catturato, è necessario compensare ciò nel corso di. RigNeRF realizza questo con un soggetto di deformazione precedente che viene calcolato da un Multilayer Perceptron (MLP) derivato dal metraggio di fornitura.

 

I parametri della digicam indispensabili per calcolare le deformazioni sono ottenuti tramite COLMAP , mentre i parametri di espressione e forma per ogni corpo sono ottenuti da DECA .

Il posizionamento è ulteriormente ottimizzato dal punto di riferimento e dai parametri della fotocamera COLMAP e, a causa delle utili limitazioni delle risorse di calcolo, l’output video viene ridimensionato a una decisione 256 × 256 per il coaching (un corso di restringimento vincolato dall’hardware che affligge ulteriormente la scena del deepfaking dell’autoencoder) .

Dopo questo, la comunità della deformazione viene educata sui 4 V100: un formidabile {hardware} che non è più probabile che sia all’interno della portata dei fanatici informali (tuttavia, il posto in cui la macchina che studia il coaching è ansiosa, in genere è possibile fare affari per tempo e accontentarsi facilmente di quel mannequin coaching potrebbe essere questione di giorni e persino settimane).

In conclusione, i ricercatori affermano:

“A differenza di diverse strategie, RigNeRF, grazie all’utilizzo di un modulo di deformazione guidato da 3DMM, è pronto per la posa della testa, le espressioni facciali e l’intera scena del ritratto 3D con eccessiva costanza, fornendo così ricostruzioni più elevate con dettagli nitidi.”

Guarda i filmati incorporati di seguito per ulteriori dettagli e filmati dei risultati. 

 

 

Di ihal