La “scatola nera” dell’intelligenza artificiale scientifica non può competere con un metodo vecchio di 200 anni
Uno degli strumenti più antichi della fisica computazionale – una tecnica matematica vecchia di 200 anni nota come analisi di Fourier – può rivelare informazioni cruciali su come una forma di intelligenza artificiale chiamata rete neurale profonda impara a svolgere compiti che coinvolgono fisica complessa come la modellazione del clima e della turbolenza, secondo un nuovo studio.
La scoperta dei ricercatori di ingegneria meccanica della Rice University è descritta in uno studio ad accesso aperto pubblicato su PNAS Nexus , una pubblicazione gemella di Proceedings of the National Academy of Sciences.
“Questo è il primo quadro rigoroso per spiegare e guidare l’uso di reti neurali profonde per sistemi dinamici complessi come il clima”, ha affermato l’autore corrispondente dello studio Pedram Hassanzadeh . “Potrebbe accelerare sostanzialmente l’uso del deep learning scientifico nella scienza del clima e portare a proiezioni sui cambiamenti climatici molto più affidabili”.
Nel documento, Hassanzadeh, Adam Subel e Ashesh Chattopadhyay , entrambi ex studenti, e Yifei Guan , un ricercatore associato post-dottorato, hanno descritto in dettaglio il loro uso dell’analisi di Fourier per studiare una rete neurale di apprendimento profondo che è stata addestrata a riconoscere complessi flussi d’aria nell’atmosfera o acqua nell’oceano e prevedere come questi flussi cambieranno nel tempo. La loro analisi ha rivelato “non solo ciò che la rete neurale aveva appreso, ma ci ha anche permesso di collegare direttamente ciò che la rete aveva appreso alla fisica del sistema complesso che stava modellando”, ha detto Hassanzadeh.
“Le reti neurali profonde sono notoriamente difficili da comprendere e sono spesso considerate ‘scatole nere'”, ha affermato. “Questa è una delle maggiori preoccupazioni con l’utilizzo di reti neurali profonde nelle applicazioni scientifiche. L’altro è la generalizzabilità: queste reti non possono funzionare per un sistema diverso da quello per il quale sono state addestrate.
Hassanzadeh ha affermato che il quadro analitico presentato dal suo team nel documento “apre la scatola nera, ci consente di guardarci dentro per capire cosa hanno appreso le reti e perché, e ci consente anche di collegarlo alla fisica del sistema che è stato appreso”.
Subel, l’autore principale dello studio, ha iniziato la ricerca come studente universitario della Rice e ora è uno studente laureato presso la New York University. Ha affermato che il framework potrebbe essere utilizzato in combinazione con tecniche per trasferire l’apprendimento per “consentire la generalizzazione e, in ultima analisi, aumentare l’affidabilità del deep learning scientifico”.
Mentre molti studi precedenti avevano tentato di rivelare come le reti di deep learning imparano a fare previsioni, Hassanzadeh ha affermato che lui, Subel, Guan e Chattopadhyay hanno scelto di affrontare il problema da una prospettiva diversa.
“I comuni strumenti di apprendimento automatico per comprendere le reti neurali non hanno mostrato molto successo per le applicazioni di sistemi naturali e ingegneristici, almeno in modo tale che i risultati possano essere collegati alla fisica”, ha affermato Hassanzadeh. “Il nostro pensiero è stato: ‘Facciamo qualcosa di diverso. Usiamo uno strumento comune per lo studio della fisica e applichiamolo allo studio di una rete neurale che ha imparato a fare fisica”.
Ha detto che l’analisi di Fourier, proposta per la prima volta nel 1820 , è una tecnica preferita di fisici e matematici per identificare i modelli di frequenza nello spazio e nel tempo.
“Le persone che si occupano di fisica guardano quasi sempre i dati nello spazio di Fourier”, ha detto. “Semplifica la fisica e la matematica.”
Ad esempio, se qualcuno avesse una registrazione minuto per minuto delle letture della temperatura esterna per un periodo di un anno, le informazioni sarebbero una stringa di 525.600 numeri, un tipo di set di dati che i fisici chiamano una serie temporale. Per analizzare le serie temporali nello spazio di Fourier, un ricercatore userebbe la trigonometria per trasformare ogni numero della serie, creando un altro set di 525.600 numeri che conterrebbe informazioni dal set originale ma sembrerebbe molto diverso.
“Invece di vedere la temperatura ogni minuto, vedresti solo alcuni picchi”, ha detto Subel. “Uno sarebbe il coseno di 24 ore, che sarebbe il ciclo giorno e notte di massimi e minimi. Quel segnale era presente da sempre nelle serie temporali, ma l’analisi di Fourier consente di vedere facilmente quei tipi di segnali sia nel tempo che nello spazio”.
Sulla base di questo metodo, gli scienziati hanno sviluppato altri strumenti per l’analisi tempo-frequenza. Ad esempio, le trasformazioni passa-basso filtrano il rumore di fondo e i filtri passa-alto fanno l’inverso, consentendo di concentrarsi sullo sfondo.
Il team di Hassanzadeh ha prima eseguito la trasformazione di Fourier sull’equazione del suo modello di deep learning completamente addestrato. Ciascuno dei circa 1 milione di parametri del modello agisce come moltiplicatore, applicando più o meno peso a operazioni specifiche nell’equazione durante i calcoli del modello. In un modello non addestrato, i parametri hanno valori casuali. Questi vengono adattati e perfezionati durante l’addestramento man mano che l’algoritmo impara gradualmente ad arrivare a previsioni sempre più vicine ai risultati noti nei casi di addestramento. Strutturalmente, i parametri del modello sono raggruppati in circa 40.000 matrici cinque per cinque, o kernel.
“Quando abbiamo preso la trasformata di Fourier dell’equazione, questo ci ha detto che dovremmo guardare la trasformata di Fourier di queste matrici”, ha detto Hassanzadeh. “Non lo sapevamo. Nessuno ha mai fatto questa parte prima, ha guardato le trasformate di Fourier di queste matrici e ha cercato di collegarle alla fisica.
“E quando lo abbiamo fatto, è emerso che ciò che la rete neurale sta imparando è una combinazione di filtri passa-basso, filtri passa-alto e filtri Gabor “, ha affermato.
“La cosa bella di questo è che la rete neurale non sta facendo alcuna magia”, ha detto Hassanzadeh. “Non sta facendo niente di folle. In realtà sta facendo ciò che un fisico o un matematico avrebbe potuto tentare di fare. Ovviamente, senza la potenza delle reti neurali, non sapevamo come combinare correttamente questi filtri. Ma quando parliamo con i fisici di questo lavoro, lo adorano. Perché sono, tipo, ‘Oh! So cosa sono queste cose. Questo è ciò che ha imparato la rete neurale. Vedo.'”
Subel ha affermato che i risultati hanno importanti implicazioni per il deep learning scientifico e suggeriscono persino che alcune cose che gli scienziati hanno imparato studiando l’apprendimento automatico in altri contesti, come la classificazione delle immagini statiche, potrebbero non essere applicabili all’apprendimento automatico scientifico.
“Abbiamo scoperto che alcune delle conoscenze e conclusioni nella letteratura sull’apprendimento automatico ottenute dal lavoro su applicazioni commerciali e mediche, ad esempio, non si applicano a molte applicazioni critiche nella scienza e nell’ingegneria, come la modellazione del cambiamento climatico”, ha affermato Subel. . “Questo, di per sé, è un’implicazione importante.”
Chattopadhyay ha ricevuto il suo dottorato di ricerca. nel 2022 ed è ora ricercatore presso il Palo Alto Research Center.
La ricerca è stata supportata dall’Office of Naval Research (N00014-20-1-2722), dalla National Science Foundation (2005123, 1748958) e dal programma Schmidt Futures. Le risorse computazionali sono state fornite dalla National Science Foundation (170020) e dal National Center for Atmospheric Research (URIC0004).