Il deep learning è alla base del set di dati geografici utilizzato nella risposta agli uragani 

Quando l’uragano Fiona è atterrato come tempesta di categoria 1 a Porto Rico il 18 settembre 2022, alcune aree dell’isola sono state inondate da quasi 30 pollici di pioggia e l’elettricità a centinaia di migliaia di case è stata interrotta. Solo 10 giorni dopo, l’uragano Ian, una tempesta di categoria 4 e una delle tempeste più forti e dannose mai registrate, è atterrato nella contea di Lee, in Florida, livellando case e allagando città prima di risalire la costa e atterrare di nuovo come tempesta di categoria 1 nella Carolina del Sud.

Condizioni meteorologiche estreme e disastri naturali si verificano con crescente frequenza negli Stati Uniti e nei suoi territori. Mappe accurate e dettagliate sono fondamentali nella risposta alle emergenze e nel recupero.

Anche prima che gli uragani atterrassero, l’Agenzia federale per la gestione delle emergenze stava lavorando con la ricercatrice Lexie Yang e il suo team presso l’Oak Ridge National Laboratory del Dipartimento dell’Energia per prevedere i potenziali danni e accelerare la risposta sul campo utilizzando USA Structures, un enorme set di dati di contorni e attributi degli edifici che coprono più di 125 milioni di strutture.

Negli ultimi sette anni, i ricercatori della Geospatial Science and Human Security Division dell’ORNL hanno mappato e caratterizzato tutte le strutture all’interno degli Stati Uniti e dei suoi territori per aiutare la FEMA nella sua risposta ai disastri. Questo set di dati fornisce una contabilità nazionale coerente degli edifici in cui le persone risiedono e lavorano.

L’agenzia ha richiesto due nuovi attributi per i dati lo stesso giorno in cui Fiona è approdata: tipi di occupazione e indirizzi, informazioni critiche per accelerare i fondi di emergenza federali a famiglie e imprese.

“Abbiamo incontrato alcune barriere linguistiche durante l’aggiunta dei nuovi dati. Le informazioni limitate a nostra disposizione erano in spagnolo. Inoltre, ci sono molti modi diversi per documentare gli indirizzi di Porto Rico. Dovendo unificare quei dati e convalidare le informazioni di attribuzione è stata una sfida unica per noi”, ha affermato Yang.

Anche con quella sfida, il team di Yang è stato in grado di tradurre, convalidare e unire i nuovi attributi ai dati di USA Structures in circa 50 ore. Questo è il risultato della disponibilità di una pipeline di informazioni scalabile e di un database creato da anni di sforzi. La FEMA ha iniziato a pianificare la sua risposta utilizzando le mappe di base delle strutture USA delle aree che potrebbero essere interessate. Il personale della FEMA ha aggiunto livelli di dati man mano che si verificavano i disastri, consentendo all’agenzia di dare priorità alla risposta alle aree più pesantemente colpite.

“La FEMA dispone di analisti GIS [sistemi informativi geografici] che raccolgono i nostri dati e li integrano con le immagini satellitari post-disastro, le immagini aeree e le informazioni che i primi soccorritori stanno raccogliendo sul campo”, ha affermato Carter Christopher di ORNL, capo sezione di Human Dynamics nel Divisione Scienze geospaziali e sicurezza umana.  

Il set di dati esistente, abbinato a informazioni sull’impatto in tempo reale, può accelerare il recupero supportando le valutazioni dei danni di cui i proprietari hanno bisogno per ricevere fondi per la ricostruzione in giorni anziché in settimane o mesi.

“Il nostro team è estremamente orgoglioso di far parte di questo progetto”, ha affermato Yang. “Vediamo come le nostre capacità e conoscenze tecniche possono trasformare il set di dati utilizzato dalla FEMA e dalle parti interessate locali”.

USA Structures ha avuto inizio nel 2015, quando gli ex ricercatori dell’ORNL Mark Tuttle e Melanie Laverdiere stavano lavorando a un progetto FEMA per mappare i parchi di case mobili negli Stati Uniti Le case mobili sono particolarmente vulnerabili ai disastri naturali ed esistevano pochi dati che identificassero la loro posizione in -strutture di rischio.

Il team ha utilizzato il deep learning, un sottoinsieme dell’apprendimento automatico, per elaborare le immagini e compilare i dati. L’apprendimento automatico  utilizza i computer per rilevare modelli in enormi quantità di dati, quindi effettua previsioni basate su ciò che il computer apprende da tali modelli. Nell’apprendimento profondo, il sistema informatico crea i propri algoritmi anziché utilizzare algoritmi sviluppati e immessi da un essere umano.

Dopo che il  database dei parchi nazionali delle case mobili  è stato compilato, la FEMA ha richiesto un database delle strutture più completo.

Il processo è iniziato con un flusso di immagini ad alta risoluzione da un fornitore di immagini satellitari commerciali e alcuni processi di preelaborazione. Le immagini grezze dovevano essere abbinate alle effettive variazioni del terreno, un processo chiamato ortorettifica, e affinate per migliorare la risoluzione. Questo processo ha portato l’immagine da una risoluzione spaziale da 2 a 3 metri agli 0,3 metri necessari per l’estrazione delle caratteristiche.

La risoluzione spaziale è simile a quella vista su Google Maps; oggetti di pochi metri sono riconoscibili all’occhio umano. Una volta preparate, le immagini sono entrate in una pipeline di estrazione delle funzionalità ospitata da un cluster GPU all’interno di Compute and Data Environment for Science di ORNL, o CADES, che offre servizi di dati ad alte prestazioni per i ricercatori in tutto il laboratorio.

Per avviare il modello di apprendimento profondo, gli scienziati hanno fornito al sistema una serie di immagini contrassegnate, o dati di addestramento, da studiare. Funzionando come una rete neurale profonda, il modello di apprendimento automatico si è formato per analizzare input simili.

Ad oggi, più di 59.000 esempi di formazione che rappresentano un’ampia e diversificata gamma di caratteristiche geografiche sono stati incorporati nel modello USA Structures. Quando il team ha iniziato a lavorare su un nuovo stato, ha preparato il set di formazione con nuovi esempi specifici per regione oltre ai dati di formazione cumulativi per gli stati precedenti.

I guadagni in output negli ultimi anni sono stati l’hardware e la potenza di calcolo continuamente migliorati di ORNL, i progressi compiuti nell’apprendimento profondo e un volume crescente di dati di addestramento che informano il modello basato sull’intelligenza artificiale. Con il progredire del progetto, le mappe sono diventate più accurate, richiedendo un minore intervento umano e il tempo necessario per elaborare le immagini è diventato sempre più breve.

La rete neurale convoluzionale ha compresso in pochi minuti un processo che avrebbe richiesto molti anni per mano umana. Ad oggi, il team ha elaborato 1,1 petabyte di immagini, unendo e descrivendo l’equivalente di un miliardo di fotografie digitali.

Dopo che l’estrazione delle caratteristiche è stata completata, i ricercatori hanno attinto dai fornitori di dati sui pacchi commerciali per confondere le informazioni sull’uso del suolo direttamente sulle caratteristiche dell’edificio USA Structures.

“Quelle informazioni aggiuntive, quando disponibili, rendono i dati delle strutture più potenti. Quella piazza è una casa, un magazzino o una chiesa? Ognuno di questi ha implicazioni diverse in un disastro”, ha detto Christopher.

Se non erano disponibili dati affidabili sull’uso del suolo, il team ha utilizzato un modello di apprendimento automatico separato per distinguere le strutture residenziali da quelle non residenziali. Le strutture sono descritte anche con altri attributi come un identificatore di edificio univoco, metratura, longitudine e latitudine.

“Ci prendiamo molto tempo per verificare che qualunque cosa stiamo consegnando alla FEMA sia la massima qualità che possiamo fornire”, ha affermato Yang.

Questo potente  set di dati open source è disponibile pubblicamente  da GeoPlatform del governo degli Stati Uniti. Inoltre, l’US Geological Survey ha aggiunto i dati alla  National Map , uno sforzo di collaborazione tra agenzie e partner statunitensi per fornire informazioni topografiche. Il team dell’ORNL spera che l’accesso aperto ai dati sia utile alle istituzioni accademiche per la ricerca e alle piccole agenzie municipali per la pianificazione del rischio.

“Molte contee rurali e piccole giurisdizioni potrebbero non avere il budget per raccogliere o acquistare questo tipo di dati in caso contrario”, ha affermato Christopher. “Potrebbe essere utilizzato dai primi soccorritori o dai fornitori di servizi di base. Potrebbe anche essere applicato alle esigenze a livello di contea per l’urbanistica o le valutazioni di proprietà”.

I ricercatori dell’ORNL coinvolti nel progetto includono Taylor Hauser, Benjamin Swan, Andrew Reith e Matthew Whitehead. Altri contributori includono Brad Miller, Matthew Crockett e Katie Heying.

Nella fase successiva del progetto, il team prevede di popolare i due attributi chiave – tipi di occupazione e indirizzi – per il resto degli stati e di affrontare le informazioni sull’altezza e l’elevazione necessarie per la modellazione delle inondazioni.

Costruire un processo sostenibile per rilevare e incorporare i cambiamenti nel tempo sarà fondamentale per estendere la durata del set di dati. Inoltre, questo potente modello potrebbe essere utilizzato per scopi simili in tutto il mondo nella pianificazione e nella risposta ai disastri o abbinato ad altre tecnologie di rilevamento per estrarre altre informazioni utili.

Chris Vaughan, partner del progetto di Yang alla FEMA, è stato un entusiasta sostenitore delle strutture USA, promuovendone l’uso e pubblicizzando lo schema coerente e l’accessibilità dei dati.

“Le operazioni in caso di calamità richiedono un set di dati di struttura standardizzato e accessibile per semplificare l’assistenza ai sopravvissuti. Il lavoro di ORNL su USA Structures ci ha aiutato a condividere i dati sugli incidenti con i nostri partner interagenzia come mai prima d’ora”, ha affermato Vaughan. “Inoltre, ci stanno aiutando a colmare le lacune di dati di lunga data relative alle popolazioni vulnerabili, che è una priorità assoluta per il nostro team”.

Yang ha riscontrato un crescente interesse da parte di agenzie federali, organizzazioni di ricerca, governi locali e professionisti non solo nell’utilizzo del set di dati, ma anche nel contributo e nell’incorporazione di dati da progetti locali più piccoli.

“Questo progetto è ancora in evoluzione e prevediamo di continuare ad avere importanti aggiornamenti ai dati attuali”, ha affermato. “Ci auguriamo che più comunità utilizzino i dati. Ha già dimostrato di essere prezioso grazie al lavoro della FEMA, ma potrebbero esserci altre applicazioni che hanno un impatto ancora maggiore”.

UT-Battelle gestisce ORNL per l’Office of Science del Dipartimento dell’Energia, il più grande sostenitore della ricerca di base nelle scienze fisiche negli Stati Uniti. L’Office of Science sta lavorando per affrontare alcune delle sfide più urgenti del nostro tempo. Per ulteriori informazioni, visitare  il sito energy.gov/science . 

Di ihal