Negli ultimi anni Meta ha dimostrato una particolare attenzione allo sviluppo di modelli di intelligenza artificiale capaci di semplificare attività complesse, rendendole accessibili anche a chi non possiede competenze tecniche avanzate. Uno degli esempi più emblematici è stato Segment Anything, un modello che ha attirato grande interesse perché in grado di isolare con estrema facilità qualsiasi oggetto all’interno di immagini e video. Ora questo stesso approccio concettuale viene esteso al dominio del suono. Con la presentazione di SAM Audio. Meta compie un passo significativo verso una manipolazione dell’audio più intuitiva, flessibile e multimodale.
SAM Audio nasce con un obiettivo ambizioso: consentire l’isolamento selettivo di una sorgente sonora specifica all’interno di un contesto audio complesso, utilizzando modalità di interazione naturali. Il modello supporta infatti tre diversi tipi di prompt, testuali, visivi e temporali, riuniti in un unico sistema unificato. In pratica, l’utente può semplicemente descrivere ciò che desidera estrarre, come “cane che abbaia” o “voce che canta”, oppure indicare visivamente una persona o uno strumento all’interno di un video, o ancora selezionare un intervallo temporale preciso. Questo approccio permette operazioni che fino a poco tempo fa richiedevano software specializzati e competenze avanzate, come rimuovere rumori indesiderati da un podcast o isolare il suono di una chitarra durante un’esibizione dal vivo.
Dal punto di vista tecnico, SAM Audio si distingue per un’architettura progettata per gestire simultaneamente più tipi di input. Un codificatore audio analizza la traccia sonora originale, mentre un codificatore testuale interpreta le descrizioni in linguaggio naturale. A questi si affiancano un codificatore temporale, che cattura le informazioni sugli intervalli di tempo, e un codificatore visivo, che sfrutta immagini e maschere degli oggetti presenti nel video. Tutti questi segnali vengono allineati lungo l’asse temporale e processati da un trasformatore di diffusione, che genera due risultati distinti: l’audio di destinazione, ovvero il suono isolato richiesto, e l’audio residuo, che contiene tutto ciò che rimane.
Questa struttura rende il modello particolarmente adatto a compiti di editing pratico. Se l’obiettivo è eliminare un rumore specifico, è sufficiente lavorare sull’audio residuo, mentre per enfatizzare una voce o uno strumento si può utilizzare direttamente l’audio di destinazione. L’aspetto più rilevante è che un singolo modello è in grado di gestire una vasta gamma di operazioni diverse, superando l’approccio tradizionale che prevedeva modelli separati per la voce, la musica o gli effetti sonori. In questo senso, SAM Audio incarna pienamente la filosofia “segment anything”, applicata però a una dimensione temporale e percettiva più complessa come quella sonora.
Alla base di SAM Audio c’è il modello PE-AV, acronimo di Perception Encoder Audiovisual, già rilasciato in precedenza da Meta. Questo modello è progettato per allineare con precisione audio e video in unità temporali coerenti, consentendo al sistema di comprendere in modo integrato ciò che viene visto e ciò che viene ascoltato. Grazie a questo allineamento, diventa possibile separare con maggiore accuratezza i suoni associati a personaggi o strumenti visibili sullo schermo. PE-AV è stato addestrato su oltre cento milioni di set di dati video ed è disponibile come open source, un dettaglio che rafforza la strategia di Meta orientata alla diffusione e alla collaborazione nella ricerca sull’intelligenza artificiale.
Sul piano delle prestazioni, i risultati condivisi da Meta indicano che SAM Audio è competitivo, e in alcuni casi superiore, rispetto ai modelli di fascia alta già esistenti. Le valutazioni interne mostrano buoni risultati in diversi ambiti, dalla separazione del parlato a quella della musica e degli strumenti. In particolare, la versione di grandi dimensioni, denominata SAM Audio Large, eccelle nella separazione di strumenti specifici e offre una velocità di elaborazione superiore al tempo reale, caratteristica che lo rende adatto anche a flussi di lavoro di editing su larga scala.
Non mancano tuttavia alcune limitazioni. Al momento non è possibile utilizzare direttamente un suono come prompt, né ottenere una separazione completamente automatica senza condizioni iniziali. Inoltre, distinguere tra sorgenti sonore molto simili, come isolare una singola voce all’interno di un coro, resta una sfida aperta. Questi limiti evidenziano come, nonostante i progressi, la percezione e la comprensione fine del suono rappresentino ancora uno dei terreni più complessi per l’intelligenza artificiale.
A completare il rilascio, Meta ha introdotto anche SAM Audio-Bench e SAM Audio Judge. Il primo è un benchmark pensato per valutare la separazione audio in scenari realistici, coprendo parlato, musica ed effetti sonori e utilizzando video e audio reali invece di dati sintetici. Il secondo è un modello di valutazione automatica che cerca di imitare il giudizio umano nell’ascolto, permettendo di stimare la qualità della separazione anche in assenza di una sorgente audio di riferimento. SAM Audio Judge viene addestrato su criteri percettivi come accuratezza, fedeltà e qualità complessiva, basandosi su dati di valutazione umana.
SAM Audio, insieme a SAM Audio-Bench e SAM Audio Judge, è disponibile per il download su GitHub, confermando l’intenzione di Meta di rendere questi strumenti accessibili alla comunità di ricerca e sviluppo. Nel complesso, l’estensione del concetto di Segment Anything al mondo dell’audio segna un passaggio importante verso strumenti di editing multimodale sempre più intuitivi, capaci di avvicinare la manipolazione avanzata del suono a un pubblico molto più ampio rispetto al passato.
