La capacità umana di evocare sensazioni multisensoriali attraverso immagini è stupefacente. Immagina di osservare una spiaggia: istantaneamente puoi sentire il frangersi delle onde, percepire l’odore salmastro dell’aria e avvertire il tepore circostante. Allo stesso modo, quando senti qualcuno russare, riesci a visualizzare chiaramente una persona immersa in un sonno profondo. Questo concetto è al centro del recente documento ImageBind di Meta AI, pubblicato alla fine di maggio, che affronta l’affascinante interrogativo: può un essere umano combinare modalità sensoriali diverse e apparentemente non correlate?
Nell’articolo, gli studiosi esplorano l’idea di “legare” insieme diverse modalità sensoriali, andando oltre il semplice connubio tra testo e immagini. Questa ricerca si basa su immagini come dati primari e sperimenta con audio, mappe termiche (ottenute tramite termocamera), testo, sensori IMU (misuratori inerziali presenti in accelerometri e giroscopi) e profondità.
Per collegare modalità distinte come profondità e testo, i ricercatori adottano l’apprendimento contrastivo. Utilizzando i dati dell’immagine come base, il diagramma nel documento mostra chiaramente le linee forti e continue che rappresentano i collegamenti effettivi disponibili in qualsiasi insieme di dati.
L’articolo delinea anche il processo attraverso cui emergono connessioni fino ad allora inesplorate. Ora è possibile prendere dati audio e testuali e ottenere immagini o video pertinenti. Questa capacità di fusione sensoriale è una novità, una “emersione”. Ad esempio, l’associazione tra il suono di un cane che abbaia e il testo “cane” produce correttamente l’immagine di un cane. Un altro esempio vede un’immagine di cicogna accostata al suono delle onde, che si combina per mostrarci la cicogna sull’acqua.
Ciò che il documento suggerisce è che non è necessario avere una coppia di dati con immagini per creare connessioni. Usando dati di profondità o mappe termiche accostati a testo (con un legame effettivo all’immagine), è possibile generare un’immagine che unisca tutti e tre gli aspetti. Questo concetto è denominato “allineamento emergente”.
Curiosamente, sebbene Meta abbia accesso a un vasto set di dati di immagini e testo, i ricercatori hanno scelto di utilizzare CLIP di OpenAI. Questa scelta è dettagliatamente spiegata da Hugo Ponte, un ricercatore di robotica. CLIP ha creato uno spazio di incorporamento condiviso per immagini e linguaggio, rendendolo incredibilmente potente. L’aggiunta di ImageBind a CLIP rende il modello applicabile non solo al testo, ma a tutte le altre modalità menzionate. Se disponi di dati audio, IMU, mappe termiche, profondità e testo, puoi generare un’immagine che rifletta tali dati.
Ponti analizza l’approccio di Meta, sottolineando che l’uso di CLIP senza modificarne lo spazio di incorporamento è geniale. Ciò consente di applicare ImageBind a una vasta gamma di contenuti già creati con CLIP.
Utilizzando ImageBind, qualsiasi input può essere proiettato in CLIP. La capacità di unire dati da diverse fonti è estesa grazie a questa integrazione, che arricchisce ulteriormente CLIP. Inoltre, gli autori di ImageBind hanno sfruttato il Vision Transformer (ViT), un’architettura popolare, per creare incorporamenti che collegano concetti attraverso modalità diverse, come associare la parola “cane” all’immagine di un cane.
Meta ha condiviso il codice di ImageBind come open source. Anche se non è destinato a scopi commerciali, gli sviluppatori hanno creato un’intelligente demo di un motore di ricerca utilizzando ImageBind. Questo motore di ricerca recupera immagini generate dall’IA in base a input testuali, audio o visivi.
Yann LeCun, a capo di Meta AI, ha spiegato che il modello non è stato pubblicato probabilmente per ragioni legali o perché rappresenta solo il primo passo in una vasta gamma di modalità. Ciò ha limitato l’adozione del modello, sebbene sembri un passo verso l’approccio di Yann LeCun all’Intelligenza Artificiale Generale (AGI). Finora, il modello è in grado di apprendere da diversi “sensi” per generare immagini che riflettono il modo in cui gli esseri umani percepiscono il mondo.