Immagine AI

NVIDIA ha pubblicato SpatialClaw, un framework open source per il ragionamento spaziale degli agenti AI basati su modelli visione-linguaggio. Il progetto affronta un limite ancora rilevante per i VLM: la capacità di comprendere relazioni tridimensionali tra oggetti, distanze, direzioni, punti di vista e movimento nel tempo, anche quando l’informazione deve essere ricostruita da immagini, sequenze video o osservazioni provenienti da più telecamere.

SpatialClaw non introduce un nuovo modello addestrato specificamente per questi compiti. Il framework lavora invece sull’interfaccia con cui il modello utilizza strumenti di percezione e calcolo. L’idea centrale è trattare il codice Python come azione dell’agente: invece di limitarsi a chiamate API predefinite o di generare un unico script completo prima di vedere i risultati intermedi, il modello scrive una cella di codice alla volta, la esegue in un ambiente persistente e usa l’output ottenuto per decidere il passaggio successivo.

Il sistema mantiene un kernel Python con stato, simile a un notebook Jupyter, già caricato con immagini, frame video, metadati, funzioni geometriche e moduli di percezione. Tra gli strumenti inclusi figurano SAM 3 per la segmentazione degli oggetti e Depth Anything 3 per la ricostruzione o stima della profondità, insieme a librerie scientifiche come NumPy, SciPy e Matplotlib. L’agente può quindi combinare segmentazione, stima della profondità, calcoli geometrici, misure di distanza, analisi vettoriali e visualizzazioni senza dover dipendere da una sequenza fissa di tool call.

Il ciclo operativo si sviluppa in più fasi. Un componente di pianificazione formula una strategia iniziale, il modello visione-linguaggio genera una cella Python, il codice viene sottoposto a controllo AST prima dell’esecuzione e il kernel restituisce testo, nuove variabili e immagini generate con show(). Questi elementi diventano osservazioni per il turno successivo. Il processo prosegue fino a quando l’agente produce una risposta finale attraverso la funzione ReturnAnswer(...).

La differenza rispetto agli agenti spaziali precedenti riguarda soprattutto la possibilità di rivedere l’analisi. In un approccio single-pass il modello deve definire tutte le operazioni prima di sapere se i risultati intermedi sono corretti. Nei sistemi basati su chiamate strutturate, invece, l’agente può essere vincolato alla combinazione di strumenti e parametri prevista dall’interfaccia. SpatialClaw consente di modificare il calcolo dopo aver ispezionato le evidenze, passando, per esempio, da una misura tra punti centrali a una ricerca della distanza minima tra superfici segmentate tramite strutture dati come i KD-tree di SciPy.

Il framework è stato valutato su 20 benchmark che comprendono ragionamento spaziale su immagine singola, viste multiple, video, relazioni dinamiche e compiti 4D spazio-temporali. NVIDIA riporta un’accuratezza media del 59,9%, superiore di 11,2 punti percentuali rispetto al precedente agente spaziale di riferimento. I test sono stati condotti mantenendo invariati system prompt, strumenti e iperparametri su sei backbone VLM delle famiglie Qwen 3.5/3.6 e Gemma 4, con dimensioni comprese tra 26 e 397 miliardi di parametri.

I miglioramenti più marcati emergono nei compiti che richiedono più passaggi geometrici consecutivi, come l’analisi del movimento della telecamera, il confronto tra osservazioni da punti di vista diversi e la determinazione di direzioni relative. Nel repository ufficiale sono inclusi i loader per tutti i benchmark, il runtime dell’agente basato su LangGraph, il kernel Jupyter persistente, i controlli di sicurezza sul codice, i wrapper per i moduli percettivi e un server GPU gestito tramite FastAPI. L’architettura può funzionare con modelli eseguiti tramite vLLM e include anche strumenti per l’esecuzione su cluster SLURM.

SpatialClaw mostra quindi che una parte del miglioramento nel ragionamento spaziale non dipende necessariamente da un nuovo ciclo di addestramento del modello. Nel progetto NVIDIA, il guadagno deriva dalla possibilità per l’agente di osservare gli effetti delle proprie elaborazioni, correggere le ipotesi e costruire progressivamente una procedura matematica e percettiva adatta al singolo problema. Questo approccio è pensato per applicazioni in robotica, guida autonoma, analisi video, realtà aumentata e sistemi AI che devono agire o prendere decisioni rispetto a oggetti collocati nello spazio fisico.

Di Fantasy