Meta ha introdotto EUPE, un nuovo “Efficient Universal Perception Encoder” progettato per eseguire molteplici attività di visione artificiale su dispositivi come smartphone e sistemi di realtà aumentata, mantenendo dimensioni contenute e prestazioni competitive. L’obiettivo dichiarato è superare i limiti degli encoder tradizionali, spesso troppo pesanti per essere utilizzati in ambienti mobili.
I modelli di visione più avanzati richiedono normalmente un numero elevato di parametri e una potenza computazionale significativa. Questo approccio funziona bene in ambienti cloud o su GPU di fascia alta, ma diventa problematico quando si tenta di portare le stesse capacità su dispositivi edge. Ridurre le dimensioni del modello comporta solitamente un degrado significativo delle prestazioni, mentre utilizzare più modelli specializzati per diverse attività aumenta il consumo di memoria e la complessità operativa. EUPE nasce per risolvere proprio questa tensione tra efficienza e versatilità, proponendo un encoder compatto ma capace di gestire più compiti simultaneamente.
Il principio alla base della nuova architettura è la costruzione di rappresentazioni universali compatte, in grado di supportare attività diverse come classificazione delle immagini, segmentazione semantica, stima della profondità e comprensione visione-linguaggio. Tradizionalmente, questi compiti richiedono modelli separati, ciascuno addestrato su dataset specifici. EUPE, invece, mira a unificare tali capacità in un unico encoder leggero, riducendo il numero di modelli necessari e semplificando l’esecuzione su hardware limitato.
Per ottenere questo risultato, i ricercatori hanno adottato un approccio di distillazione multi-stadio. Nella prima fase, le conoscenze provenienti da diversi modelli specialistici vengono integrate in un grande modello proxy. Questo passaggio consente di combinare competenze differenti in un’unica rappresentazione. Successivamente, le capacità del modello proxy vengono distillate in un encoder più compatto, mantenendo la maggior parte delle prestazioni ma riducendo drasticamente le dimensioni. Infine, il modello risultante viene ulteriormente ottimizzato attraverso training multi-risoluzione, migliorando la robustezza su input con caratteristiche diverse.
Questo schema consente di superare un limite tipico delle tecniche multi-teacher tradizionali, che spesso trasferiscono conoscenze direttamente su modelli piccoli con perdita di qualità. L’introduzione del modello proxy intermedio permette invece di consolidare le informazioni prima della compressione finale, migliorando l’efficienza del trasferimento di conoscenza e preservando le prestazioni.
Dal punto di vista delle prestazioni, EUPE ha dimostrato risultati competitivi su benchmark eterogenei. Nei test di classificazione basati su ImageNet, nelle attività di segmentazione su ADE20K e nei benchmark di ragionamento visivo come GQA e RealworldQA, il modello ha raggiunto prestazioni comparabili o superiori a quelle di modelli specializzati più grandi. Questo indica che l’encoder riesce a mantenere una buona generalizzazione pur con dimensioni ridotte.
Un elemento particolarmente rilevante è l’efficienza computazionale. Il modello è stato progettato con meno di cento milioni di parametri, una dimensione significativamente inferiore rispetto agli encoder tradizionali di fascia alta. Nei test di inferenza, EUPE ha mostrato tempi di risposta di pochi millisecondi su CPU di smartphone di fascia alta, come iPhone 15 Pro, suggerendo la possibilità di eseguire attività di visione artificiale in tempo reale direttamente sul dispositivo. Questo aspetto è fondamentale per applicazioni edge, dove la latenza e la dipendenza dal cloud devono essere ridotte al minimo.
L’approccio adottato da Meta riflette una tendenza crescente verso modelli universalmente applicabili ma altamente efficienti. Nei dispositivi mobili, l’esecuzione simultanea di più task di percezione è spesso necessaria, ad esempio per applicazioni di realtà aumentata, assistenti visivi o sistemi di analisi in tempo reale. Disporre di un encoder compatto e multi-funzione consente di ridurre il consumo energetico, semplificare l’architettura software e migliorare l’esperienza utente.
La disponibilità del modello con pesi e codice open rappresenta inoltre un incentivo per l’adozione nella comunità di ricerca e nello sviluppo di applicazioni commerciali. La possibilità di utilizzare un encoder universale leggero potrebbe accelerare la diffusione della visione artificiale on-device, aprendo scenari in cui smartphone e dispositivi AR eseguono autonomamente analisi complesse senza ricorrere continuamente a infrastrutture cloud.
L’introduzione di EUPE evidenzia quindi una direzione strategica per la visione artificiale: modelli più compatti, versatili e ottimizzati per l’esecuzione locale. Invece di aumentare indefinitamente la dimensione dei modelli, la ricerca si sta concentrando su architetture efficienti capaci di portare funzionalità avanzate direttamente sui dispositivi edge, riducendo latenza, costi e consumo energetico. In questo scenario, encoder universali compatti come EUPE potrebbero diventare componenti fondamentali per la prossima generazione di applicazioni di percezione intelligente.
