Immagine AI

L’evoluzione dell’Intelligenza Artificiale nel campo della visione artificiale ha raggiunto una nuova frontiera con il recente annuncio di Meta: la presentazione di SAM 3 (Segment Anything Model 3). Questo modello, reso disponibile in open source, è stato progettato per superare i limiti dei sistemi di segmentazione tradizionali, offrendo una soluzione integrata e incredibilmente flessibile, capace di rilevare, segmentare e tracciare ogni singolo oggetto presente in immagini e video utilizzando la sola potenza del linguaggio testuale o semplici indicazioni visive. SAM 3 non è solo un aggiornamento, ma una vera e propria riprogettazione che promette di democratizzare l’accesso a strumenti di analisi visiva estremamente sofisticati.

Il grande salto in avanti di SAM 3 risiede nell’introduzione della Prompttable Concept Segmentation (PCS). I modelli di segmentazione visiva preesistenti erano generalmente vincolati a un insieme fisso di etichette testuali predefinite, rendendo difficile l’adattamento ai concetti nuovi, rari o troppo specifici richiesti dagli utenti. PCS risolve questo problema permettendo al modello di rilevare e segmentare qualsiasi istanza di un concetto, anche se complesso, definito attraverso l’uso combinato di prompt testuali e di un esempio visivo.

Immaginiamo, ad esempio, di voler isolare in un video un oggetto descritto come “scuolabus giallo” o un “giocatore in uniforme rossa”. Il prompt concettuale unisce una breve frase nominale descrittiva a un’immagine campione, che aiuta il modello a distinguere quell’oggetto da altri visivamente simili. Una volta che il modello riconosce il concetto richiesto, applica una maschera di segmentazione e un ID univoco a tutte le istanze corrispondenti. Oltre a questa innovativa segmentazione concettuale, SAM 3 conserva e migliora il supporto per i prompt visivi più semplici come le maschere, i riquadri di delimitazione e i singoli punti, già introdotti nelle versioni SAM 1 e 2, garantendo la possibilità di una segmentazione accurata anche per concetti rari o estremamente difficili da spiegare a parole.

Sotto il profilo architetturale, SAM 3 è un esempio di integrazione efficace. Il modello è composto da un Rilevatore di Immagini e da un Tracker Video che condividono un unico codificatore visivo, ottimizzando l’efficienza. Il Rilevatore di Immagini accetta in input prompt testuali, geometrici ed esempi visivi, mantenendo separata la rappresentazione dell’immagine principale dall’interfaccia dei prompt.

Un dettaglio tecnico di particolare rilevanza è l’introduzione dei token di presenza. Questi token hanno la funzione cruciale di determinare se un riquadro o una maschera candidata corrisponda effettivamente al concetto richiesto, riducendo drasticamente la confusione e migliorando la precisione nella distinzione tra oggetti visivamente affini, come nel caso di “giocatori bianchi” e “giocatori rossi”. Inoltre, separando le funzioni di localizzazione e riconoscimento, il sistema è in grado di eseguire in modo indipendente la previsione della forma (riquadri/maschere) e la classificazione degli oggetti. Per quanto riguarda l’elaborazione video, il sistema riutilizza il tracker di SAM 2, collegandolo al nuovo rilevatore e mantenendo coerenti gli ID degli oggetti tra i fotogrammi, dimostrando una capacità di adattamento affidabile a dataset e concetti complessi.

Per l’addestramento e la valutazione di SAM 3, Meta ha sviluppato un dataset su larga scala contenente oltre quattro milioni di concetti univoci e ha creato il benchmark SA-Co. I risultati delle valutazioni sono eccezionali: nel benchmark SA-Co, SAM 3 ha raggiunto una performance compresa tra il 75 e l’80% delle prestazioni umane (misurate su cgF1), superando in modo significativo i modelli esistenti sul mercato, compresi concorrenti noti come OWLv2, DINO-X e persino Gemini 2.5.

Il modello ha inoltre dimostrato un’elevata precisione nel tracciamento in scenari video complessi, validata su benchmark specifici come SA-V e SmartGlasses. Questo successo attesta che un unico modello è ora in grado di gestire in modo efficiente sia la segmentazione concettuale di immagini fisse sia il tracciamento video a lungo termine.

La decisione strategica di Meta di rendere il modello e il codice di SAM 3 disponibili pubblicamente su piattaforme come HuggingFace e GitHub è un gesto che amplifica l’impatto di questa innovazione. Rendendo la tecnologia accessibile a ricercatori e sviluppatori in tutto il mondo, Meta non solo stimola l’innovazione, ma consolida la sua posizione di leader nel movimento open source dell’AI. SAM 3 si stabilisce come un punto di riferimento fondamentale per la prossima generazione di sistemi di visione artificiale, con applicazioni che spaziano dalla robotica alla realtà aumentata, fino all’analisi forense avanzata di video complessi.

Di Fantasy