I neuroni multimodali possono rispondere a un gruppo di concetti astratti incentrati su un tema comune di alto livello piuttosto che su una caratteristica visiva specifica.
In un importante passo avanti, i ricercatori di OpenAI hanno scoperto reti neurali all’interno di sistemi di intelligenza artificiale che assomigliano alla rete neurale all’interno del cervello umano. I neuroni multimodali sono una delle reti neurali più avanzate fino ad oggi.
I ricercatori hanno scoperto che questi neuroni avanzati possono rispondere a un gruppo di concetti astratti incentrati su un tema comune di alto livello piuttosto che su una caratteristica visiva specifica. Come le loro controparti biologiche, questi neuroni possono rispondere a una serie di emozioni, animali, fotografie, disegni e personaggi famosi.
I ricercatori hanno scritto che questi neuroni in CLIP possono rispondere allo stesso concetto, se presentati letteralmente, simbolicamente o concettualmente.
I neuroni multimodali sono stati scoperti nel modello CLIP in grado di connettere testo e immagini. Può apprendere concetti visivi dalla supervisione del linguaggio naturale. Inoltre, questo sistema di visione generico può eguagliare le prestazioni di un ResNet-50 ma supera i sistemi di visione esistenti sui set di dati più impegnativi. Ad esempio, un neurone chiamato “Spider-Man” può rispondere all’immagine di un ragno, al testo “ragno” e al personaggio dei fumetti “uomo ragno”.
Lo studio
I ricercatori hanno trovato neuroni multimodali in diversi modelli CLIP di varie dimensioni, ma si sono concentrati sullo studio del modello RN50-x4 di medie dimensioni. I ricercatori hanno utilizzato due strumenti per comprendere le attivazioni del modello:
Visualizzazione delle funzionalità, che massimizza l’attivazione del neurone eseguendo l’ottimizzazione basata sul gradiente sull’input.
Esempi di set di dati, che esamina la distribuzione delle immagini di attivazione massima per un neurone da un set di dati.
I ricercatori hanno condotto una serie di esperimenti attentamente costruiti per trovare le capacità uniche di questi neuroni nello strato convoluzionale . Ogni strato è costituito da migliaia di neuroni. “Per la nostra analisi preliminare, abbiamo esaminato le visualizzazioni delle caratteristiche, gli esempi di set di dati che più attivavano il neurone e le parole inglesi che più attivavano il neurone quando rasterizzate come immagini”, hanno detto i ricercatori . La maggior parte di questi neuroni sono stati creati per trattare argomenti delicati, dalle figure politiche alle emozioni.
L’esperimento ha rivelato un’incredibile diversità di caratteristiche come i neuroni della regione, i neuroni della persona, i neuroni delle emozioni, i neuroni dello stile artistico, i neuroni del tempo, i neuroni astratti, i neuroni dei colori e altro ancora.
I ricercatori hanno scoperto che la maggior parte dei neuroni in CLIP è facilmente interpretabile. “Da una prospettiva di interpretabilità, questi neuroni possono essere visti come esempi estremi di” neuroni sfaccettati “che rispondono a più casi distinti. Guardando alle neuroscienze, potrebbero suonare come “neuroni della nonna”, ma la loro natura associativa li distingue da quanti neuroscienziati interpretano quel termine “, hanno affermato i ricercatori.
Le reti neurali funzionano secondo lo stesso principio delle loro controparti biologiche per elaborare i dati. Tuttavia, lo svantaggio è che è difficile capire perché prende determinate decisioni e come si arriva a una conclusione particolare.
I ricercatori hanno affermato che nonostante sia stato addestrato su un sottoinsieme curato di Internet, eredita ancora i suoi numerosi pregiudizi e associazioni incontrollati. “… abbiamo scoperto diversi casi in cui CLIP detiene associazioni che potrebbero provocare danni rappresentativi, come la denigrazione di determinati individui o gruppi”, hanno affermato i ricercatori. Ad esempio, il neurone “Medio Oriente” era associato al terrorismo; e un neurone “immigrazione” ha risposto in America Latina.
Nonostante le messe a punto e l’uso di tecniche zero-shot, i ricercatori hanno affermato che questi pregiudizi e associazioni rimarranno nel sistema. I risultati di CLIP sono ancora in evoluzione e c’è molta ricerca e comprensione da fare nei sistemi multimodali. Nel tentativo di far progredire l’area, i ricercatori hanno condiviso gli strumenti, gli esempi di set di dati, le visualizzazioni di funzionalità di testo e altro ancora con la comunità.