D-ID: i media sintetici di scommesse di questa start-up possono democratizzare la creazione di contenuti nell’era della privacy

Quando ho incontrato per la prima volta Gil Perry, CEO e co-fondatore di D-ID quattro anni fa, ha immaginato un futuro in cui le nostre foto dei nostri volti, oi video dei nostri amici o delle nostre famiglie, sarebbero stati privi di tracciamento del computer. Il suo uso della tecnologia per offuscare i dati delle immagini utilizzando il Generative Adversarial Network (GANS) (che crea immagini sintetiche che assomigliano molto alla foto originale ed è percepito come identico all’occhio umano, ma completamente dissimile da un modello di apprendimento automatico) ha creato un’alternativa modello di ricavo che consente alle organizzazioni di proteggere la privacy dei propri dipendenti. D-ID è presto passato al video, ha assunto i migliori esperti di visione artificiale di deep learning in Israele e ha sviluppato la massima esperienza nella visione artificiale di volti umani sintetici.

La tecnologia di D-ID era già sfruttata da aziende Fortune 100, due applicazioni per città intelligenti, produttori e utenti di CCTV e aziende automobilistiche. Quando arrivò il Covid-19, si presentò un’altra opportunità per D-ID nel settore dei media e dell’intrattenimento.

Oggi, nel settore dei contenuti, esiste un divario considerevole tra le richieste di una serie infinita di siti di social media e punti vendita di contenuti e ciò che i produttori di contenuti possono permettersi di realizzare, dati i tempi e i costi. L’uso di supporti sintetici supera questa lacuna consentendo la produzione di grandi quantità di contenuti audio, video o di immagini senza la necessità di costosi processi fisici.

Gil Perry, Sella Blondheim ed Eliran Kuta, i co-fondatori di D-ID hanno individuato questa opportunità durante la pandemia globale. Perry spiega:

“Le produzioni cinematografiche complete sono state interrotte perché gli attori non erano in grado di lasciare le loro case. Abbiamo capito che potevamo aiutare in queste circostanze e contribuire a fornire la pubblicità richiesta senza che gli attori debbano lasciare le loro case. Così abbiamo svolto ricerche per sei mesi, abbiamo parlato con molti potenziali clienti per capire cosa richiedessero. Abbiamo testato i nostri limiti tecnologici e costruito una tecnologia proprietaria: la nostra AI Face Platform, che consente la creazione di riprese video realistiche di alta qualità utilizzando qualsiasi video del driver per guidare il movimento e dare vita alle foto “.

Per D-ID, la loro recente partnership con MyHeritage offre una grande opportunità per mostrare la loro AI Face Platform. MyHeritage , il sito di genealogia che consente ai membri di scoprire le proprie radici, sta dando vita a vecchie immagini di famiglia in un modo completamente nuovo. Le persone nate prima dell’era del video ora possono essere viste muovere la testa e fare espressioni facciali. Ed è tutto fatto usando AI e Live Portrait di D-ID.

Le foto vengono mappate e quindi animate da un video del conducente, consentendo al soggetto di imitare i movimenti del video del conducente. Come ha affermato Gilad Japhet, CEO di MyHeritage:

“MyHeritage è entusiasta di collaborare con D-ID e integrare la sua tecnologia nella suite di funzionalità fotografiche avanzate di MyHeritage. Le foto storiche ci forniscono un legame tangibile con il nostro passato. Vedere i volti dei nostri antenati prendere vita attraverso la rievocazione video approfondisce il nostro legame con la nostra storia familiare ed è semplicemente mozzafiato “.

D-ID ha anche stretto una partnership con Peach Content, un’agenzia creativa, per produrre contenuti creativi di alta qualità, con potenti strumenti che ottimizzano la creatività.

“La tecnologia unica di D-ID ci ha permesso di scattare una foto e combinarla con il movimento live-action”, ha affermato Peretz Markish, VP Creative and Production di Peach Content. “Rimuove i limiti che limitavano il cinema in passato e ci offre una nuova tela di opzioni”.

Per D-ID, l’uso di supporti sintetici per sostituire gli attori dal vivo offre un’alternativa conveniente all’industria cinematografica e dei media. Come osserva Perry, le aziende stanno già affrontando la clonazione vocale e gli schermi verdi vengono utilizzati come alternative alle riprese in loco più costose. I casi all’avanguardia riguardano la manipolazione del corpo umano e, in particolare, del viso. Nella produzione video, la maggior parte dei contenuti viene generata attraverso il volto e la voce. In qualità di leader già nel settore, Perry si rende conto che la prossima interruzione nei media e nell’intrattenimento sarà la creazione di media che utilizzano l’intelligenza artificiale.

https://youtu.be/7EHZnJa6gAc

La gamma di potenziali usi è enorme, dalla precisa sincronizzazione labiale nel doppiaggio, ai lettori di notizie automatizzati guidati dal testo, alla capacità di rifare le riprese senza dover riunire l’intera troupe e il cast.

Perry contempla un altro esempio:

“Immagina una piattaforma di notizie digitali in cui l’utente finale può prendere un articolo scritto, scegliere il suo presentatore di notizie preferito e vedere questo conduttore trasmettere le notizie, nello studio di notizie, invece di limitarsi a leggerle. Il nostro algoritmo genera il giornalista e lo mostra nello studio giornalistico senza che venga filmato. “

Nel processo di doppiaggio, esempio dal francese all’inglese, dove non solo l’audio è cambiato, ma le labbra dell’attore francese sono ora sincronizzate con la nuova voce inglese. D-ID è ora in trattative con due società di media che vogliono sperimentare queste capacità.

Il rischio di deepfake
Ma questo è uno spazio pieno di potenziali problemi di privacy, inclusa la famigerata tecnologia “deepfake” in cui i cattivi attori scambiano o manipolano i volti delle persone per fini maligni. Il rapporto Predicts 2021 di Gartner prevede che:

Nel 2023, il 20% degli attacchi di acquisizione di account riusciti utilizzerà i deepfake come parte degli attacchi di ingegneria sociale
Entro il 2024, il 60% dei fornitori di intelligenza artificiale includerà la mitigazione di danni / abusi come parte del proprio software
La giornalista Nina Schick ritiene che nei prossimi 5-7 anni la maggior parte dei video online sarà sintetica. Big Tech sta anche testando i limiti dei media sintetici: la Deep Fake Challenge di Facebook per sviluppare sistemi algoritmici di rilevamento dei falsi profondi e la sfida LipSync di Google per insegnare ai sistemi di intelligenza artificiale come leggere le labbra e aiutare le persone con difficoltà di linguaggio.

E anche D-ID è consapevole del problema. La privacy e la sicurezza sono l’intento della loro soluzione di anonimizzazione dei volti che sostituisce un volto con un altro sul video per proteggere le identità. La tecnologia è già adottata dai produttori di film documentari che hanno bisogno di proteggere l’identità di informatori, vittime di violenza sessuale e bambini, senza compromettere la qualità dell’esperienza di visione.

״ Da quando abbiamo iniziato a utilizzare la tecnologia di anonimizzazione dei volti di D-ID, abbiamo riscontrato una maggiore disponibilità delle persone a girare un film e raccontare la loro storia senza paura o preoccupazione di ripercussioni. Sebbene in passato siamo stati in grado di utilizzare tecniche di sfocatura e di alterazione della voce, l’utilizzo dell’anonimizzazione dei volti crea un’esperienza visiva completamente nuova per il pubblico “.

Ciò è evidente nel recente documentario israeliano in prima serata di Pinchasov, Reasonable Doubt , incentrato sulla possibile condanna ingiusta di un uomo in prigione per omicidio. L’agente di polizia coinvolto non voleva che la sua faccia fosse vista, quindi Pinchasov ha sostituito la sua faccia con quella di un altro attore che utilizzava l’esperienza di D-ID.

Inoltre, la capacità di rilevamento e sfocatura dei volti di D-ID sfoca i volti anche nelle condizioni video più estreme come grandi folle o persone che indossano maschere facciali. Questa funzionalità di sfocatura di fascia alta consente ai registi di documentari e persino alle organizzazioni che utilizzano telecamere di sicurezza CCTV di utilizzare le riprese, proteggendo le identità e altre informazioni di identificazione personale (PII).

Da supporti sintetici a dati sintetici
Lo smartphone ha consentito l’accelerazione delle foto, che ha dato origine a database di immagini, e una domanda esplosiva per migliorare i tassi di precisione dell’identificazione facciale. Ciò che abbiamo sperimentato negli ultimi 6 anni include la dipendenza delle forze dell’ordine dalle telecamere a circuito chiuso, nella maggior parte dei luoghi pubblici e nelle scuole e tecnologie simili come Ring nelle nostre case ; applicazioni per sorvegliare dipendenti e appaltatori come il monitoraggio dei conducenti di Amazon ; l’uso di foto personali di più persone utilizzate senza consenso come nel caso di Clearview ; una risposta Covid-19 per imporre l’apprendimento in aula video remoto che ha anche svelato pratiche per raccogliere informazioni biometriche e altre informazioni personali degli studenti, sfruttando anche l’analisi dell’IA per determinare i casi di tradimento degli studenti.

Quella che è diventata pratica comune negli ultimi 35 anni è lo sviluppo di database su larga scala tra cui la tecnologia di riconoscimento facciale FERET , introdotta da DARPA a metà degli anni ’90, Labeled Faces in the Wild (LFW) rilasciata nel 2007 che includeva immagini scaricate direttamente da ricercatori di Google, Flickr, Yahoo e infine il database di foto degli utenti di Facebook che, nel 2014, sono stati utilizzati per addestrare il loro modello di deep learning DeepFace. Queste fonti raccoglievano informazioni da milioni di individui, senza consenso, e operavano di nascosto sotto il radar di qualsiasi legislazione imminente. La ricaduta è stata l’inizio di sistemi decisionali intenti a procurare riconoscimento, tracciamento e previsioni più pervasivi, che si sono già dimostrati dannosi per individui e gruppi.

Gartner ha recentemente pubblicato il rapporto Predicts 2021: Artificial Intelligence and Its Impact on People and Society che ha offerto questo sguardo al futuro:

“L’intelligenza artificiale generativa, ad esempio, è ora in grado di creare fotografie incredibilmente realistiche di persone e oggetti che in realtà non esistono; Gartner prevede che entro il 2023, il 20% delle acquisizioni di account utilizzerà falsi profondi generati da questo tipo di intelligenza artificiale. Le capacità di intelligenza artificiale in grado di creare e generare contenuti iperrealistici avranno un effetto di trasformazione sulla misura in cui le persone possono fidarsi dei propri occhi “.

Per contrastare questo problema, l’industria sta iniziando a mettere in atto politiche di protezione. Attualmente, i petabyte di dati generati ogni giorno sono in gran parte controllati dai grandi colossi della tecnologia: Google, Amazon, Microsoft, Facebook, Apple. Le start-up più piccole non hanno accesso a questi enormi set di dati e quindi sono già svantaggiati quando creano i loro modelli di formazione. L’uso di dati sintetici diventa l’alternativa a tutela della privacy che consente alle aziende più piccole di costruire i propri volumi di dataset in modo efficace per creare prototipi e modelli.

Secondo Gartner:

Entro il 2024, il 60% dei dati utilizzati per lo sviluppo di soluzioni di intelligenza artificiale e analisi sarà generato sinteticamente.
Entro il 2025, il 10% dei governi eviterà problemi di privacy e sicurezza utilizzando popolazioni sintetiche per addestrare l’IA
Gil Perry comprende anche l’importanza di applicare i rigidi quadri politici di D-ID per questi tipi di progetti, per ridurre al minimo cose come l’identificazione dei partecipanti che scelgono di rimanere anonimi e il pieno consenso e consapevolezza di coloro che sono coinvolti. Nel documentario, ad esempio, c’era anche una divulgazione trasparente che l’individuo sullo schermo non è la persona reale.

Tuttavia, la possibilità di un uso improprio durante questa era di falsi profondi è molto reale. Stabilire una governance intorno all’uso di Face Anonymization, Live Portrait, Talking Heads e Lip Sync per garantire che i clienti seguano le migliori pratiche potrebbe non andare abbastanza lontano da limitare le opportunità che potrebbero essere al di fuori del controllo di D-ID. Capisce che con le capacità che hanno creato, derivano enormi responsabilità:

“Quindi, prima di tutto con ogni straordinaria tecnologia e interruzione, ci sono dei rischi e li prendiamo molto sul serio. Questa tecnologia è già qui e la stiamo creando per stabilire un uso etico di fronte al progresso. Possiamo aiutare a prevenire molti danni perché veniamo dal mondo della privacy, e la visione e ciò che ci guida e ciò che ci tiene svegli la notte è questa motivazione per creare del bene. Quindi, oltre a vedere il potenziale del danno, sappiamo di essere nel posto giusto. La creazione della tecnologia e dei quadri politici che ne derivano e il monitoraggio del modo in cui i video vengono utilizzati influenzeranno collettivamente l’uso organizzativo. Come fondatori, mettiamo in atto regole e linee guida contro i cattivi attori che proliferano video falsi profondi. In alcuni casi utilizzeremo anche filigrane che consentono agli spettatori di identificare un video sintetico “.

Perry sostiene che al momento il suo software è orientato al business e coloro che concedono in licenza la loro tecnologia ne comprendono i limiti e si impegnano a utilizzare i prodotti coerentemente con i propri valori. Fanno anche parte di un gruppo aperto che include le autorità di regolamentazione per costruire una politica attorno a questa tecnologia emergente. L’impegno a livello di policy, tecnologia e business è fondamentale per mitigare eventuali danni indebiti.

I dati sintetici e la governance intorno al loro utilizzo sembrano la giusta evoluzione verso un futuro di privacy. Perry è fiducioso che i risultati dell’IA finora tracceranno il corso di questo settore che include cambiamenti significativi nel modo in cui i dati vengono raccolti, creati, elaborati in vista dei potenziali impatti individuali e sociali. E mentre l’intenzione verso pratiche etiche deve essere un’adozione violenta al posto della legislazione imminente, il futuro che sposta la domanda del settore dai dati personali ai dati sintetici è il futuro che tutti desideriamo.

Di ihal