Sviluppatori TikTok che cancellano i volti per applicazioni di realtà aumentata
ByteDance, la multinazionale cinese di Internet dietro TikTok, ha sviluppato un nuovo metodo per cancellare i volti nei video in modo che la distorsione dell’identità e altri effetti bizzarri possano essere imposti alle persone nelle applicazioni di realtà aumentata. La società afferma che la tecnica è già stata integrata nei prodotti mobili commerciali, sebbene non specifichi quali prodotti.
Una volta che i volti nel video sono stati “azzerati”, c’è abbastanza “tela del viso” per produrre distorsioni sbalorditive e potenzialmente sovrapporre altre identità. Gli esempi forniti in un nuovo articolo dei ricercatori di ByteDance illustrano le possibilità, incluso il ripristino delle caratteristiche “cancellate” in varie configurazioni comiche (e certamente alcune grottesche):
Verso la fine di agosto è venuto alla luce che TikTok, la prima app non Facebook a raggiungere i tre miliardi di installazioni , aveva lanciato TikTok Effect Studio (attualmente in closed beta ), una piattaforma per sviluppatori di realtà aumentata (AR) per creare effetti AR per i flussi di contenuti TikTok.
In effetti, la società sta raggiungendo le comunità di sviluppatori simili di AR Studio di Facebook e Snap AR , con la venerabile comunità di ricerca e sviluppo di AR di Apple anch’essa destinata a diventare imminentemente galvanizzata dal nuovo hardware nel corso del prossimo anno.
Espressioni vuote
Il documento , intitolato FaceEraser: Rimozione delle parti facciali per la realtà aumentata , rileva che gli algoritmi di pittura/riempimento esistenti, come SPADE di NVIDIA , sono più orientati al completamento di immagini troncate o altrimenti semi-oscurate piuttosto che all’esecuzione di questa insolita procedura di ‘svuotamento’, e che il materiale del set di dati esistente è quindi prevedibilmente scarso.
Poiché non sono disponibili set di dati di verità sul terreno per le persone che hanno una solida distesa di carne dove dovrebbe essere il loro viso, i ricercatori hanno creato una nuova architettura di rete chiamata pixel-clone , che può essere sovrapposta ai modelli di reintegrazione neurale esistenti e che risolve i problemi relative alle incoerenze di trama e colore mostrate (la carta attesta) da metodi precedenti come StructureFlow e EdgeConnect .
Flusso di lavoro generale del clone di pixel nella nuova pipeline.
Per addestrare un modello su volti “vuoti”, i ricercatori hanno precluso le immagini con gli occhiali o dove i capelli oscurano la fronte, poiché l’area tra l’attaccatura dei capelli e le sopracciglia è solitamente il più grande gruppo singolo di pixel che può fornire “incollare” materiale per le caratteristiche centrali del viso.
Preparazione delle immagini di allenamento. L’area della fronte viene ritagliata, in base ai punti chiave nel riconoscimento dell’allineamento facciale, capovolta verticalmente e cucita.
Si ottiene un’immagine di 256×256 pixel, una dimensione sufficientemente piccola da alimentare lo spazio latente di una rete neurale in batch sufficientemente grandi da ottenere la generalizzazione . L’upscaling algoritmico successivo ripristinerà le risoluzioni necessarie per lavorare nello spazio AR.
Pixel-Clone utilizza una metodologia codificatore-decodificatore modificata, mentre il livello di perfezionamento utilizza l’architettura U-Net, una tecnica originariamente sviluppata per l’imaging biomedico , che spesso è presente nei progetti di ricerca sulla sintesi delle immagini.
Durante il flusso di lavoro di formazione è necessario valutare l’accuratezza delle trasformazioni e, se necessario, ripetere i tentativi in modo iterativo fino alla convergenza . A tal fine vengono utilizzati due discriminatori basati su PatchGAN , ognuno dei quali valuta il realismo localizzato di patch di 70×70 pixel, scontando il valore di realismo dell’intera immagine.
Formazione e dati
La rete di completamento dell’edge viene inizialmente addestrata in modo indipendente, mentre le altre due reti vengono addestrate insieme, in base ai pesi risultanti dall’addestramento di completamento dell’edge, che vengono fissati e congelati durante questa procedura.
Il documento afferma che “i volti cancellati consentono varie applicazioni di realtà aumentata che richiedono il posizionamento di elementi personalizzati dall’utente”, indicando la possibilità di personalizzare i volti con elementi di terze parti, forniti dall’utente.
Il modello è addestrato su maschere dal set di dati FFHQ creato da NVIDIA , che contiene un’adeguata varietà di età, etnie, illuminazione e pose e stili del viso per ottenere un’utile generalizzazione. Il set di dati contiene 35.000 immagini e 10.000 maschere di allenamento per delineare le aree di trasformazione, con 4000 immagini e 1000 maschere riservate a scopo di convalida.
Risultati di inferenza ottenuti su una faccia reale.
Come è comune nella ricerca sulla sintesi di immagini basata sul volto, il sistema deve fare i conti con guasti occasionali provocati da ostruzioni o occlusioni come capelli, periferiche, occhiali e peli del viso.
Il rapporto conclude:
“Il nostro approccio è stato commercializzato e funziona bene nei prodotti per input utente non vincolati.”