I cosiddetti modelli neurosimbolici, che combinano algoritmi con tecniche di ragionamento simbolico , sembrano essere molto più adatti a prevedere, spiegare e considerare possibilità controfattuali rispetto alle reti neurali. Ma i ricercatori di DeepMind affermano che le reti neurali possono superare i modelli neurosimbolici nelle giuste condizioni di test. In un documento di prestampa , i coautori descrivono un’architettura per il ragionamento spazio-temporale sui video in cui vengono appresi tutti i componenti e tutte le rappresentazioni intermedie sono distribuite (anziché simboliche) attraverso gli strati della rete neurale. Il team afferma che supera le prestazioni dei modelli neurosimbolici in tutte le domande in un set di dati popolare, con il massimo vantaggio sulle domande controfattuali.
La ricerca di DeepMind potrebbe avere implicazioni per lo sviluppo di macchine che possano ragionare sulle loro esperienze. Contrariamente alle conclusioni di alcuni studi precedenti, i modelli basati esclusivamente su rappresentazioni distribuite possono effettivamente funzionare bene su compiti visivi che misurano le funzioni cognitive di alto livello, secondo i ricercatori, almeno nella misura in cui superano i modelli neurosimbolici esistenti.
L’architettura della rete neurale proposta nel documento fa leva sull’attenzione per integrare efficacemente le informazioni. (L’attenzione è il meccanismo mediante il quale l’algoritmo si concentra su un singolo elemento o su pochi elementi alla volta.) È auto-supervisionato, il che significa che il modello deve dedurre oggetti mascherati nei video utilizzando le dinamiche sottostanti per estrarre più informazioni. E l’architettura garantisce che gli elementi visivi nei video corrispondano a oggetti fisici, un passo che i coautori sostengono è essenziale per il ragionamento di livello superiore.
I ricercatori hanno confrontato la loro rete neurale con CoLision Events for Video REpresentation and Reasoning ( CLEVRER ), un set di dati che si basa su intuizioni psicologiche. CLEVRER contiene oltre 20.000 video di 5 secondi di oggetti in collisione (tre forme di due materiali e otto colori) generati da un motore fisico e più di 300.000 domande e risposte, tutte incentrate su quattro elementi di ragionamento logico: descrittivo (ad es. “Di che colore “), Esplicativo (” di cosa è responsabile “), predittivo (” cosa succederà dopo “) e controfattuale (” cosa succede se “).
Secondo i coautori di DeepMind, la loro rete neurale ha eguagliato le prestazioni dei migliori modelli neurosimbolici senza dati preliminari o etichettati e con il 40% di dati di allenamento in meno, sfidando l’idea che le reti neurali siano più affamate di dati rispetto ai modelli neurosimbolici. Inoltre, ha ottenuto il 59,8% sulle domande controfattuali più difficili, meglio sia del caso che di tutti gli altri modelli, e si è generalizzato ad altre attività, comprese quelle in CATER, un set di dati video di tracciamento degli oggetti in cui l’obiettivo è prevedere la posizione di un oggetto target nella cornice finale.
“I nostri risultati … si aggiungono a una serie di prove che le reti profonde possono replicare molte proprietà della cognizione e del ragionamento umano, beneficiando della flessibilità e dell’espressività delle rappresentazioni distribuite”, hanno scritto i coautori. “I modelli neurali hanno avuto un certo successo anche in matematica, un dominio che, intuitivamente, sembrerebbe richiedere l’esecuzione di regole formali e la manipolazione dei simboli. Sorprendentemente, i modelli di linguaggio neurale su larga scala … possono acquisire una propensione per il ragionamento aritmetico e l’analogia senza essere addestrati esplicitamente per tali compiti, suggerendo che le attuali limitazioni della rete neurale sono migliorate quando si scala a più dati e si utilizzano architetture più grandi ed efficienti. “