KAIST, MIT e Microsoft sviluppano Upsample Anything per migliorare la visione artificiale riducendo il consumo di memoria GPU

Un team di ricerca guidato dal professor Chang-ik Kim del Dipartimento di Ingegneria Elettrica ed Elettronica del Korea Advanced Institute of Science and Technology (KAIST), in collaborazione con ricercatori del MIT e di Microsoft, ha sviluppato Upsample Anything, una nuova tecnologia progettata per migliorare le capacità percettive dei sistemi di intelligenza artificiale senza aumentare significativamente il consumo di memoria GPU. Il lavoro è stato accettato alla conferenza internazionale CVPR 2026 e ha ottenuto il riconoscimento CVPR Compute Gold Star, assegnato alle ricerche che dimostrano particolare efficienza computazionale.

La ricerca affronta un problema strutturale che interessa gran parte dei moderni sistemi di visione artificiale. Modelli utilizzati nella robotica, nella guida autonoma, nei sistemi embedded e nei cosiddetti world model elaborano infatti le immagini convertendole in rappresentazioni compatte a bassa risoluzione. Questa strategia permette di ridurre il carico computazionale e il consumo di memoria, ma comporta inevitabilmente una perdita di informazioni visive dettagliate che possono risultare essenziali durante l’interpretazione dell’ambiente circostante.

Quando un’immagine viene compressa in una rappresentazione a bassa risoluzione, dettagli come piccoli oggetti, contorni sottili, anomalie superficiali o difetti minimi rischiano di essere attenuati o completamente eliminati. D’altra parte, mantenere tutte le informazioni originali in alta risoluzione lungo l’intera pipeline di elaborazione richiede una quantità di memoria e capacità di calcolo spesso incompatibile con dispositivi mobili, robot autonomi o sistemi che devono operare in tempo reale.

Upsample Anything introduce un approccio differente basato su una tecnica di sovracampionamento senza addestramento. Invece di richiedere dataset aggiuntivi, fasi di fine-tuning o procedure di ottimizzazione dedicate per ogni modello, il sistema è in grado di ricostruire rappresentazioni ad alta risoluzione utilizzando esclusivamente l’immagine disponibile in ingresso. Questo consente di applicare la tecnologia immediatamente a modelli già esistenti senza modificare la loro architettura interna.

Il cuore del metodo consiste nell’apprendere una strategia di ricostruzione direttamente dall’immagine stessa. Durante il processo, l’immagine ad alta risoluzione viene inizialmente ridotta a una versione a bassa risoluzione. Successivamente il sistema ottimizza per ogni pixel un kernel gaussiano adattivo che consente di identificare il metodo più efficace per recuperare le informazioni perse durante la compressione. In questo modo ciascun pixel acquisisce una modalità di ricostruzione specifica che tiene conto contemporaneamente della distanza spaziale tra le aree circostanti e della loro somiglianza cromatica.

Questo meccanismo permette di preservare con maggiore accuratezza i contorni e le strutture geometriche presenti nell’immagine originale. Invece di applicare un’unica strategia uniforme all’intera scena, il sistema costruisce una rappresentazione localmente adattiva che reagisce alle caratteristiche specifiche di ogni regione dell’immagine. Le aree caratterizzate da bordi netti, texture fini o dettagli complessi possono quindi essere trattate in modo differente rispetto alle regioni più uniformi.

Una volta completata la fase di apprendimento spaziale, le informazioni ricavate dall’immagine RGB vengono trasferite nello spazio delle caratteristiche utilizzato dal modello di intelligenza artificiale. Questo passaggio rappresenta uno degli aspetti più innovativi della ricerca. Il sistema non genera nuove informazioni artificiali, ma utilizza le conoscenze apprese durante la ricostruzione per riorganizzare e fondere in modo più efficace le feature già presenti all’interno della rappresentazione compressa.

Secondo i ricercatori, questo approccio rende la tecnologia indipendente sia dall’architettura del modello sia dal dominio applicativo. Poiché il metodo opera direttamente sulle mappe delle caratteristiche e non richiede modifiche alla struttura della rete neurale, può essere integrato in numerosi sistemi di visione artificiale già esistenti. Ciò include modelli destinati alla robotica, alla guida autonoma, all’analisi video, all’elaborazione di immagini mediche e alle applicazioni edge eseguite direttamente sui dispositivi.

Particolarmente rilevante è il rapporto tra qualità della ricostruzione e consumo delle risorse. Invece di conservare tutte le informazioni ad alta risoluzione durante l’intero processo di elaborazione, Upsample Anything mantiene soltanto i dati essenziali e ricostruisce i dettagli quando necessario. Questa strategia consente di ridurre significativamente l’occupazione della memoria GPU pur preservando una qualità percettiva molto vicina a quella ottenibile con rappresentazioni native ad alta risoluzione.

I risultati presentati dal team mostrano che il sistema è in grado di ricostruire informazioni visive ad alta fedeltà in circa 0,4 secondi partendo da immagini da 224×224 pixel, una risoluzione ampiamente utilizzata come riferimento nei benchmark di visione artificiale. Il tempo di elaborazione contenuto e il basso utilizzo di memoria rendono la tecnologia particolarmente interessante per scenari nei quali le risorse hardware disponibili sono limitate.

Le potenziali applicazioni coprono numerosi settori emergenti dell’intelligenza artificiale. Nei robot umanoidi la capacità di riconoscere piccoli oggetti e manipolare elementi complessi dipende fortemente dalla qualità delle informazioni visive disponibili. Analogamente, nei sistemi di guida autonoma l’identificazione accurata di segnali, ostacoli e dettagli ambientali può beneficiare di rappresentazioni più ricche senza richiedere un incremento significativo della capacità computazionale. Anche smartphone, dispositivi edge e sistemi embedded potrebbero sfruttare la tecnologia per migliorare le proprie capacità percettive mantenendo consumi energetici e requisiti hardware compatibili con ambienti operativi reali.

Con Upsample Anything, il team di KAIST, MIT e Microsoft propone quindi una nuova strategia per affrontare uno dei compromessi fondamentali della visione artificiale moderna: ottenere una percezione più dettagliata dell’ambiente senza sostenere i costi computazionali associati all’elaborazione continua di immagini ad alta risoluzione. L’approccio dimostra come sia possibile recuperare una parte significativa delle informazioni perse durante la compressione, migliorando l’accuratezza dei sistemi AI e rendendo più accessibili applicazioni avanzate di robotica e intelligenza artificiale distribuita.

KAIST, MIT e Microsoft sviluppano Upsample Anything per migliorare la visione artificiale riducendo il consumo di memoria GPU

DiFantasy

Di Fantasy

Articoli correlati

NVIDIA presenta ENPIRE, un sistema in cui i robot apprendono autonomamente nuovi compiti attraverso esperimenti nel mondo reale

Anthropic analizza 400.000 sessioni di Claude Code e scopre che la competenza nella professione conta più della capacità di programmare

HappyScribe trasforma audio e video in trascrizioni, sottotitoli e contenuti multilingua con AI e revisione umana

Ultimi Post

NVIDIA presenta ENPIRE, un sistema in cui i robot apprendono autonomamente nuovi compiti attraverso esperimenti nel mondo reale

Anthropic analizza 400.000 sessioni di Claude Code e scopre che la competenza nella professione conta più della capacità di programmare

HappyScribe trasforma audio e video in trascrizioni, sottotitoli e contenuti multilingua con AI e revisione umana

OpenAI introduce Deployment Simulation per prevedere i rischi dei modelli AI prima del rilascio