La divisione di ricerca di Disney ha sviluppato un innovativo metodo di compressione delle immagini che utilizza il modello open source Stable Diffusion V1.2. Questo nuovo approccio promette immagini più realistiche a bitrate inferiori rispetto ai metodi attualmente disponibili sul mercato.
Secondo gli autori dello studio, il metodo di compressione di Disney offre un recupero migliorato dei dettagli. A differenza dei metodi tradizionali, non richiede investimenti enormi per la formazione e risulta più veloce rispetto alle soluzioni concorrenti.
Il nuovo sistema, pur essendo più complesso dei codec tradizionali come JPEG e AV1, è definito un “codec”. È progettato per funzionare con qualsiasi Latent Diffusion Model (LDM), superando i metodi precedenti in termini di accuratezza e dettagli, con costi di formazione e elaborazione notevolmente inferiori.
Il principio chiave di questo lavoro è che l’errore di quantizzazione, una fase critica nella compressione delle immagini, è simile al rumore presente nei modelli di diffusione. Pertanto, un’immagine quantizzata in modo tradizionale può essere trattata come una versione “rumorosa” dell’immagine originale. Questo approccio consente di utilizzare tecniche di denoising per ricostruire l’immagine a un bitrate desiderato.
Tuttavia, come altri progetti che utilizzano modelli di diffusione, anche questo metodo potrebbe generare dettagli imprecisi. Mentre i metodi di compressione lossy come JPEG tendono a produrre distorsioni evidenti, il codec di Disney potrebbe alterare dettagli di contesto non presenti nell’immagine sorgente. Questo è dovuto alla natura limitata del Variational Autoencoder (VAE) utilizzato.
I ricercatori avvertono che, in situazioni critiche dove i dettagli sono fondamentali—come nelle prove giudiziarie o nel riconoscimento facciale—queste imprecisioni possono risultare problematiche.
La compressione delle immagini basata sull’intelligenza artificiale offre un compromesso tra accuratezza e logistica, affrontando sfide globali come l’archiviazione dei dati e il consumo energetico. Anche se questo metodo è ancora in fase di sviluppo, la Disney ha una lunga storia nell’esplorazione dell’apprendimento automatico per la compressione.
Il nuovo sistema utilizza un VAE per codificare un’immagine in una rappresentazione latente compressa. Attraverso un processo chiamato quantizzazione adattiva, il sistema controlla i parametri di quantizzazione e il numero di passaggi di denoising, bilanciando efficienza e accuratezza.
Il modello è stato addestrato sul dataset Vimeo-90k, e le immagini sono state ottimizzate per ottenere i migliori risultati in termini di qualità e dettagli. Le metriche utilizzate per la valutazione includono il rapporto segnale/rumore di picco (PSNR) e altre misure di similarità.
I risultati mostrano che il metodo di Disney stabilisce nuovi standard in termini di realismo delle immagini ricostruite, superando altre tecniche, inclusi i codec generativi più performanti. Tuttavia, gli autori riconoscono che il loro approccio può talvolta generare dettagli falsi.
La discussione su questo tema è particolarmente rilevante in un momento in cui altri ricercatori esplorano come le “allucinazioni” nei modelli di compressione possano essere utilizzate a scopi creativi. La comunità fotografica e creativa potrebbe avere opinioni diverse su questa nuova visione della compressione delle immagini.