L’intelligenza artificiale applicata alla videoconferenza dà il via a diverse tacche

La videoconferenza è diventata il nuovo viaggio d’affari, grazie a Covid-19, e ne faremo di più anche dopo il virus. Grazie al virus, tuttavia, sono in corso ulteriori ricerche per migliorarlo, inclusa una serie di nuove tecniche di IA dimostrate come parte di NVIDIA NVDA + 0,7% Maxine, una piattaforma di strumenti video AI che NVIDIA concede in licenza ai partner.

La capacità dell’IA di aiutare con la compressione e l’upresolution dei video sta crescendo. Sono già sul mercato diversi strumenti per aumentare la risoluzione dei vecchi video e tra non molto guarderemo regolarmente i vecchi contenuti TV SD in HD e la superficie non è stata graffiata. Sebbene Maxine offra l’upscaling basato sull’intelligenza artificiale, la videoconferenza può fare uso di più delle semplici tecniche di compressione video.

Estrazione dei punti chiave
Quando hai una testa parlante di fronte a uno sfondo fisso, non cambia molto nel corso dell’intera chiamata. Se invii immagini ad alta risoluzione del viso e dello sfondo, e in particolare del viso in vari orientamenti e posizioni, è possibile estrarre i punti chiave da tutti i muscoli facciali, quindi animare il viso reale dall’altra parte. Avete visto tutti questo accadere quando un attore come Andy Serkis guida un personaggio animato come Gollum o Snoke, ma con i dati giusti si può animare il proprio volto per ottenere un video realistico su un piccolo canale di larghezza di banda. Ciò può consentire alle persone che utilizzano un canale dati mobile con larghezza di banda molto bassa di inviare comunque video ragionevoli.

NVIDIA afferma di inviare video di qualità decente in soli 30 kilobit / secondo, la velocità di un antico modem dial-up.

Avatar
L’animazione degli avatar in questo modo è stata fatta per decenni, anche prima che fosse abbastanza buona da usare nei film. Le nuove tecniche di intelligenza artificiale stanno rendendo questi avatar molto più realistici. C’è un compromesso: alle persone piace l’aspetto della privacy dell’invio di un avatar, non devono pulire, truccarsi o persino indossare vestiti o pulire la loro stanza. Allo stesso tempo, un avatar non trasmette la stessa connessione umana del video reale, e usarlo in una direzione e non nell’altra sarebbe inquietante. Gli avatar hanno un grande vantaggio se vuoi usarli in VR o AR, perché non ci sono auricolari sui loro volti e puoi muoverti intorno a loro.

Sguardo e allineamento del viso
Un argomento caldo nelle videoconferenze è stato il software che regola la posizione dei tuoi occhi in modo da guardare direttamente l’altra persona, piuttosto che di lato o in alto dove si trova la tua videocamera. Ciò migliora notevolmente la qualità umana di una videochiamata. In passato, è stato troppo difficile da fare: gli umani sono molto bravi a notare quando gli occhi di qualcuno non sono perfettamente corretti. Gli sforzi recenti hanno dimostrato più successo. NVIDIA ha dimostrato di spostare non solo gli occhi ma l’intero viso, che è importante per una fotocamera di lato (come è necessario con schermi molto grandi o telefoni utilizzati in modalità orizzontale). Ciò richiederà ulteriori prove.

Sfondi virtuali

Tutti hanno visto (e si stanno stancando di) sfondi virtuali, una caratteristica comune in Zoom. NVIDIA afferma che il loro andrà molto oltre, con una precisione che si avvicina a un vero schermo verde. (Ho uno schermo verde nel mio studio di casa e oggi non c’è alcun sostituto per quello.) Ovviamente sono anche popolari tra le persone che vogliono nascondere il disordine nella loro stanza, ma sono anche molto utili per mescolare il tuo viso con le diapositive quando fai un presentazione.

Eliminazione dello sfondo
Simulazione del pubblico
La simulazione del pubblico Microsoft estrae la testa e le spalle dal pubblico della videoconferenza MICROSOFT
Un complemento allo schermo verde virtuale, non dimostrato da NVIDIA ma recentemente promesso da Microsoft Teams MSFT -2,1%, è quello di portare fuori la persona dal suo background, e poi mettere quella testa e le spalle in un altro ambiente – in questo caso un pubblico simulato in un auditorium, con le teste impacchettate in modo alternato per mostrare molte persone contemporaneamente con una larghezza di banda inferiore. Gli strumenti degli eventi virtuali di oggi abbandonano e isolano il pubblico e gli oratori devono vedere il loro pubblico per fare un lavoro migliore. Inoltre, questa tecnica, poiché non mostra le persone a meno che non stiano mostrando una testa e spalle normali, rende più difficile il “bombardamento della stanza” con porno o altre immagini.

Eliminazione del rumore
NVIDIA ha anche dimostrato l’eliminazione del rumore di fondo. Una demo simile è stata rilasciata per Google Meet GOOG -2,2%versioni più costose. Questo strumento rimuove molti suoni di sottofondo per le persone che non utilizzano un auricolare (le persone dovrebbero comunque utilizzare un auricolare, tuttavia, suona molto meglio ed è molto più bidirezionale e interattivo). Detto questo, sembra impossibile convincere le persone a non apparire senza auricolari, e quindi eliminare i suoni di sottofondo – insenature della sedia, tastiere, mangiare, bambini che giocano, aerei che sorvolano, soffiatori di foglie ecc. – è un vantaggio. La demo di Google mostra anche che rimuove il suono degli applausi, che è un errore: è un suono intenzionale che la persona sta cercando di inviare e non ha conferenze online.

Nel cloud
NVIDIA ha promosso che gran parte di questa elaborazione può avvenire nel cloud, sebbene ovviamente la tecnologia di riduzione della larghezza di banda debba essere eseguita almeno su uno degli endpoint in cui la larghezza di banda è bassa. Va notato che l’elaborazione di video e audio nel cloud rende molto difficile eseguire la crittografia end-to-end, qualcosa per cui Zoom ha avuto molti problemi all’inizio di quest’anno. (In particolare per aver detto che l’hanno fatto quando non l’hanno fatto.) La crittografia end-to-end è sempre buona, sebbene possa essere sacrificata per le funzionalità se è improbabile che le violazioni della sicurezza di cui sei preoccupato violino la crittografia a livello di collegamento.

Complimenti a NVIDIA per aver promosso nuovi livelli di videoconferenza. Molto di più arriverà in futuro. Anche dopo il virus, il lavoro da casa continuerà. Prevedo che le aziende inizieranno presto ad acquistare postazioni di lavoro “lavoro da casa” per i dipendenti da inserire nelle loro case, dotate di display, telecamere e audio di alta qualità, oltre a processori AI, per consentire loro di ottenere il video migliore e più realistico (e altrettanto importanti, audio). Tali workstation costeranno meno di un solo viaggio di lavoro, quindi è facile giustificare se portano a termine il lavoro.

Di ihal