Mentre lo sciopero degli attori di Hollywood si avvicina al suo centesimo giorno senza una soluzione in vista, un nuovo avanzamento tecnologico sta amplificando una delle più grandi lamentele degli attori: la scansione 3D dei corpi umani in movimento. Questa tecnologia offre la possibilità di catturare le performance e i gesti degli attori come modelli 3D, che potrebbero essere archiviati e riutilizzati dagli studi cinematografici in modo permanente.

Sebbene la scansione 3D sia stata presente a Hollywood per molti anni, solitamente richiedeva una configurazione complessa e dispendiosa in termini di tempo. Questo coinvolgeva l’uso di più telecamere disposte a 360 gradi attorno al corpo dell’attore o, nel caso della cattura del movimento, l’uso di piccole palline da ping-pong come “marker” posizionate direttamente sull’attore e un body aderente. Anche i progressi recenti che hanno sfruttato l’intelligenza artificiale, come la startup britannica Move AI, solitamente si basavano su più fotocamere (anche se Move AI ha ora una nuova app per una singola fotocamera in versione limitata su invito).

Tuttavia, ora è emerso un nuovo approccio: lo “splatting gaussiano”. Questa serie di equazioni, precedentemente utilizzata per catturare immagini 3D statiche da una singola telecamera 2D spostata sequenzialmente intorno a un oggetto, è stata modificata da ricercatori presso Huawei e l’Università di Scienza e Tecnologia di Huazhong in Cina per catturare il movimento dinamico in 3D, compresi i movimenti del corpo umano.

Il loro metodo, chiamato “splatting gaussiano 4D”, introduce il tempo come quarta dimensione, consentendo alle immagini di evolversi nel tempo.

Lo “splatting gaussiano 3D” è stato originariamente sviluppato nel 2001 dai ricercatori del MIT, dell’ETH di Zurigo e della Mitsubishi per la scansione di oggetti tramite laser. Questo metodo utilizza raccolte di particelle per rappresentare una scena 3D, ognuna con la propria posizione, rotazione e altri attributi. Ad ogni punto viene assegnata un’opacità e un colore, che possono variare a seconda della prospettiva. Negli ultimi anni, lo “splatting gaussiano” ha fatto notevoli progressi ed è ora possibile visualizzarlo sui moderni browser web e realizzarlo tramite una serie di immagini 2D sullo smartphone di un utente.

Tuttavia, come indicato dai ricercatori in un nuovo articolo pubblicato il 12 ottobre su Github e su arXiv.org, “3D-GS (splatting gaussiano) si concentra ancora sulle scene statiche. Estenderlo alle scene dinamiche come una rappresentazione 4D è una sfida ragionevole, importante ma complessa. La sfida principale risiede nella modellazione dei movimenti complessi da input sparsi”.

La principale difficoltà sta nel fatto che quando più “splatting gaussiani” vengono uniti attraverso diversi timestamp per creare un’immagine in movimento, ogni punto si “deforma” da un’immagine all’altra, creando rappresentazioni approssimative delle forme e dei volumi degli oggetti (e dei soggetti) nelle immagini.

Tuttavia, i ricercatori sono riusciti a superare questa sfida mantenendo solo un “set di gaussiane 3D canoniche”, ovvero immagini, e utilizzando l’analisi predittiva per prevedere come questi punti si sarebbero spostati da un timestamp all’altro.

Il risultato finale è un’immagine 3D di una persona che cucina su una padella, taglia e mescola gli ingredienti, o un cane che si muove nelle vicinanze. In tutti questi esempi, i ricercatori sono stati in grado di ottenere un effetto di rotazione 3D, consentendo agli spettatori di spostare virtualmente la “telecamera” attorno agli oggetti nella scena tridimensionale e osservarli da diverse angolazioni e prospettive.

Secondo i ricercatori, il loro metodo di “splatting gaussiano 4D” “raggiunge una resa in tempo reale su scene dinamiche, con una velocità di frame fino a 70 FPS per dataset sintetici a una risoluzione di 800×800 e 36 FPS per dataset reali a una risoluzione di 1352×1014, mantenendo prestazioni comparabili o superiori rispetto ai metodi all’avanguardia precedenti (SOTA)”.

Sebbene i risultati iniziali siano impressionanti, le scene di movimento catturate dai ricercatori in 3D durano attualmente solo pochi secondi ciascuna e non coprono ancora un’intera durata di un film. Tuttavia, questo rappresenta un eccellente punto di partenza per gli studi che desiderano registrare brevi sequenze di attori per un futuro riutilizzo. Inoltre, questa tecnica potrebbe rivelarsi molto utile per i progettisti di videogiochi, XR/VR, aprendo nuove possibilità creative.

È probabile che, con ulteriori sviluppi tecnologici, la qualità e la durata delle registrazioni 3D continueranno a migliorare, aprendo nuove opportunità nell’industria dell’intrattenimento.

Come concludono i ricercatori nel loro articolo, “Questo lavoro è ancora in fase di sviluppo e continueremo a esplorare una resa di qualità superiore per scene dinamiche complesse”.

Di Fantasy