Meta ha svelato un nuovo modello di intelligenza artificiale open source in grado di apprendere associando sei tipi di informazioni, inclusi testo (testo), immagine e audio.
Seguendo il modello linguistico su larga scala “LLaMA” e il modello di segmentazione delle immagini “SAM (Segment Anything Model)”, sta attirando l’attenzione annunciando uno dopo l’altro i modelli AI come fonti aperte.
Meta, raggruppando un totale di sei tipi di informazioni, tra cui testo, immagine/video e audio, nonché profondità (3D), immagine termica (infrarossi) e unità di misura inerziale (IMU) dati del sensore che calcola il movimento e la posizione e ha rivelato di aver rilasciato un modello di intelligenza artificiale “ImageBind” in grado di farlo.
Questa è la prima volta che viene rilasciato un modello di intelligenza artificiale multimodale in grado di apprendere e comprendere simultaneamente sei diverse forme di informazioni. L’industria ritiene che sia significativo in quanto si tratta di un modello basato su open source che può essere utilizzato gratuitamente nella ricerca.
Una rete neurale come ImageBind che elabora più tipi di dati è chiamata modello multimodale. In genere, i modelli multimodali memorizzano ogni tipo di dati che raccolgono in un incorporamento separato. Ad esempio, una rete neurale che elabora immagini e testo potrebbe memorizzare le immagini in un incorporamento e il testo in un altro incorporamento.
Il modello imagebind di Meta, d’altra parte, combina più tipi di dati in un unico incorporamento invece di memorizzarli separatamente. Ciò consente di supportare attività di calcolo complesse. Nello specifico, questo modello può analizzare più tipi di dati contemporaneamente. Ad esempio, gli utenti possono fare in modo che ImageBind generi immagini di automobili basate su schizzi e descrizioni testuali.
ImageBind adotta un approccio simile a come gli esseri umani raccolgono informazioni da più sensi e possono elaborare tutte le informazioni simultaneamente e in modo olistico. Ad esempio, può fornire alle macchine una comprensione olistica di come gli oggetti in un’immagine suonano e appaiono 3D, quanto sono caldi e freddi e come si muovono.
Imagebind può prendere un’immagine o un video come input per cercare audio correlato, audio di input per cercare immagini correlate o testo per cercare immagini e clip audio correlati. Può anche cercare immagini correlate combinando audio, immagini e messaggi.
Puoi anche generare immagini dall’audio combinando imagebind con modelli di intelligenza artificiale generativa. “Questo studio è un approccio che può portare le macchine un passo più vicino alla capacità degli esseri umani di apprendere vari tipi di informazioni simultaneamente e direttamente nel loro insieme”, ha affermato Meta. “Connettere quanti più sensi possibile consentirà modelli di intelligenza artificiale incentrati sull’uomo. “