I progressi ottenuti dai moderni modelli multimodali hanno portato l’intelligenza artificiale a raggiungere risultati impressionanti nel riconoscimento di oggetti, persone, luoghi e contesti visivi. Tuttavia, una recente linea di ricerca evidenzia come questi sistemi continuino a mostrare importanti limiti quando devono comprendere le dimensioni fisiche reali degli elementi presenti nelle immagini. Un caso particolarmente significativo riguarda i monumenti e i punti di riferimento urbani, strutture che gli esseri umani identificano facilmente ma delle quali i modelli AI spesso non riescono a valutare correttamente la scala.
Il problema emerge quando un sistema di visione artificiale è in grado di riconoscere un monumento famoso, come una torre, una cattedrale o una statua monumentale, ma non possiede una rappresentazione affidabile delle sue dimensioni effettive. In altre parole, il modello può identificare correttamente il soggetto fotografato senza comprendere se si tratti di una struttura alta pochi metri oppure di una costruzione che domina l’intero skyline di una città.
La difficoltà deriva dal modo in cui vengono addestrati i moderni modelli di intelligenza artificiale. Le reti neurali apprendono principalmente correlazioni statistiche tra immagini e descrizioni testuali presenti nei dataset di addestramento. Durante questo processo sviluppano una notevole capacità di classificazione visiva, ma non necessariamente una comprensione fisica del mondo. Il risultato è che un modello può associare correttamente il nome di un monumento a una fotografia senza acquisire informazioni robuste sulle sue dimensioni reali, sul volume occupato nello spazio o sulle proporzioni rispetto agli elementi circostanti.
Questo limite è particolarmente evidente nei sistemi di Visual Place Recognition, una categoria di tecnologie utilizzate per identificare luoghi e località attraverso l’analisi delle immagini. Tali sistemi si concentrano prevalentemente sul riconoscimento di caratteristiche visive distintive e sulla corrispondenza tra immagini simili, privilegiando pattern, texture, forme architettoniche e dettagli caratteristici piuttosto che relazioni dimensionali assolute.
Un ulteriore fattore che contribuisce al problema è la natura stessa delle fotografie utilizzate per l’addestramento. Le immagini catturano il mondo in due dimensioni e possono alterare significativamente la percezione della scala. Un monumento gigantesco fotografato da lontano può apparire relativamente piccolo, mentre una struttura modesta ripresa da vicino può sembrare molto più imponente. Gli esseri umani riescono generalmente a compensare queste distorsioni grazie all’esperienza accumulata nel mondo fisico, utilizzando elementi contestuali come persone, automobili, edifici vicini e prospettive geometriche. I modelli AI, invece, non sempre riescono a integrare queste informazioni in una rappresentazione coerente delle dimensioni reali.
La ricerca mostra che il riconoscimento dei punti di riferimento si basa spesso su caratteristiche locali dell’immagine piuttosto che su una comprensione globale della scena. Molti algoritmi sono progettati per individuare regioni visive distintive che permettono di identificare rapidamente una determinata struttura, ma tali caratteristiche non forniscono necessariamente informazioni affidabili sulla scala dell’oggetto osservato.
La questione assume particolare rilevanza con la diffusione dei Large Vision Models e dei sistemi multimodali che combinano testo e immagini. Questi modelli vengono sempre più utilizzati per applicazioni che richiedono una comprensione del mondo fisico, come la robotica, la navigazione autonoma, i sistemi turistici intelligenti, i droni e gli assistenti digitali capaci di interpretare l’ambiente circostante. In tali scenari, una valutazione errata delle dimensioni può influenzare decisioni operative, pianificazione dei percorsi e interazione con il contesto reale.
Per affrontare questa limitazione, i ricercatori stanno esplorando approcci che integrano informazioni tridimensionali, dati geografici, modelli di profondità e rappresentazioni spaziali più avanzate. L’obiettivo è superare la semplice identificazione visiva e costruire sistemi capaci di sviluppare una vera comprensione geometrica delle scene osservate. Alcuni filoni di ricerca stanno inoltre valutando l’integrazione di mappe, coordinate GPS, dati LiDAR e modelli 3D per fornire ai sistemi AI informazioni supplementari sulla struttura fisica dell’ambiente.
Questa difficoltà evidenzia una distinzione fondamentale tra riconoscere e comprendere. I modelli moderni possono identificare con elevata precisione migliaia di monumenti e luoghi nel mondo, ma la capacità di associare tali elementi a proprietà fisiche concrete come altezza, volume, distanza e proporzioni rimane un problema aperto. La differenza tra classificazione visiva e comprensione spaziale continua infatti a rappresentare una delle principali sfide della ricerca nell’intelligenza artificiale multimodale.
Il caso dei monumenti dimostra come le prestazioni elevate ottenute nei benchmark di riconoscimento delle immagini non siano necessariamente sinonimo di comprensione del mondo reale. Per rendere l’intelligenza artificiale realmente capace di ragionare sugli ambienti fisici sarà necessario sviluppare modelli che non si limitino a riconoscere ciò che vedono, ma che sappiano anche comprendere le relazioni spaziali, le proporzioni e le dimensioni degli oggetti che osservano.
