Nel settore dell’intelligenza artificiale, la capacità di elaborare immagini ad alta risoluzione senza consumare quantità proibitive di energia e risorse computazionali rappresenta una delle sfide più complesse per il mercato attuale. Recentemente, la società Nota, specializzata in tecnologie di ottimizzazione, ha ottenuto un riconoscimento di prestigio mondiale vedendo la propria ricerca sul modello ERGO (Efficient Reasoning & Guided Observation) accettata all’ICLR 2026. Questa conferenza, dove colossi come Google e Meta presentano le loro innovazioni, ha un processo di selezione estremamente rigoroso che quest’anno ha ammesso meno di un terzo dei lavori presentati. Il cuore della ricerca di Nota risiede nel superamento dei limiti dei Vision Language Models (VLM) tradizionali, i quali spesso faticano a bilanciare la velocità di esecuzione con la necessità di analizzare dettagli minuscoli in immagini molto grandi.
Il funzionamento del modello ERGO si discosta radicalmente dall’approccio convenzionale basato sulla percezione meccanica, dove l’intero frame viene scansionato uniformemente. Questa vecchia metodologia comporta spesso la perdita di informazioni cruciali quando l’immagine viene ridotta per risparmiare memoria, oppure costi esorbitanti se analizzata interamente ad alta risoluzione. ERGO introduce invece un concetto di “percezione basata sul ragionamento”, che opera attraverso una struttura a due stadi definita “da grossolana a fine”. In una prima fase, l’intelligenza artificiale osserva l’immagine a bassa risoluzione per coglierne il contesto generale; successivamente, grazie a un sistema di apprendimento per rinforzo, il modello decide autonomamente dove “zoomare” con la massima risoluzione. Questo significa che l’IA non spreca potenza di calcolo su aree irrilevanti, come un cielo uniforme o un muro vuoto, ma concentra l’analisi solo sui dettagli critici necessari per rispondere a una specifica domanda o rilevare un pericolo.
I risultati ottenuti nei test di benchmark sono sorprendenti e delineano un futuro in cui l’intelligenza artificiale diventa drasticamente più sostenibile. ERGO ha dimostrato di poter mantenere un’accuratezza elevatissima utilizzando appena il 23% dei dati visivi (token) richiesti dai modelli concorrenti più moderni. Questa efficienza si traduce in una velocità di esecuzione tre volte superiore rispetto agli standard attuali, risolvendo in un colpo solo i due principali ostacoli alla diffusione su larga scala dei modelli visivi: il tempo di risposta e il costo operativo. Grazie a questa ottimizzazione, è possibile ottenere prestazioni di alto livello anche su dispositivi edge, ovvero piccoli computer locali con capacità limitate, eliminando la dipendenza da server centralizzati costosi e complessi da mantenere.
Le applicazioni pratiche di questa tecnologia sono molteplici e promettono di trasformare settori critici come la sicurezza industriale e la gestione del traffico urbano. Integrando ERGO nella soluzione proprietaria Nota Vision Agent, l’azienda mira a potenziare i sistemi di videosorveglianza in tempo reale, rendendoli capaci di individuare segnali di incidenti a grande distanza o movimenti anomali quasi impercettibili. Nei sistemi di trasporto intelligenti, questa tecnologia permetterà un’analisi del traffico molto più fluida e precisa, essenziale per il coordinamento delle città moderne. Come sottolineato dal CEO Myung-soo Chae, si sta entrando nell’era dell’ottimizzazione intelligente, dove l’obiettivo non è solo ridurre le dimensioni dei modelli, ma rendere più efficiente e strategico il modo stesso in cui l’intelligenza artificiale “pensa” e osserva il mondo circostante.
