L’algoritmo personalizza automaticamente le funzioni di ricompensa in base alla classificazione dei regimi di traffico per risolvere i problemi di controllo del segnale stradale non stazionario

 

Il controllo dei segnali stradali influisce sulla vita quotidiana delle persone che vivono nelle aree urbane. Il sistema esistente si basa su un controllore basato sulla teoria o su regole incaricato di modificare i semafori in base alle condizioni del traffico. L’obiettivo è ridurre il ritardo del veicolo in condizioni di traffico insaturo e massimizzare la portata del veicolo durante la congestione. Tuttavia, il controllore della segnaletica stradale esistente non può soddisfare tali obiettivi alteranti e un controllore umano può gestire solo pochi incroci. In considerazione di ciò, i recenti progressi nell’intelligenza artificiale si sono concentrati sull’abilitazione di modi alternativi di controllo dei segnali stradali.

La ricerca attuale su questo fronte ha esplorato gli algoritmi di apprendimento per rinforzo (RL) come possibile approccio. Tuttavia, gli algoritmi RL non funzionano sempre a causa della natura dinamica degli ambienti di traffico, ovvero il traffico in corrispondenza di un incrocio dipende dalle condizioni del traffico in altri incroci vicini. Sebbene il multiagente RL possa affrontare questo problema di interferenza, soffre di una dimensionalità in crescita esponenziale con l’aumento delle intersezioni.

Di recente, un team di ricercatori della Chung Ang University in Corea guidato dal Prof. Keemin Sohn ha proposto un modello meta-RL per risolvere questo problema. In particolare, il team ha sviluppato un modello meta-RL basato sul contesto integrato nella deep Q-network (EDQN) per il controllo dei segnali stradali. “Gli studi esistenti hanno ideato algoritmi meta-RL basati sulla geometria dell’intersezione, sulle fasi dei segnali stradali o sulle condizioni del traffico. La presente ricerca affronta l’aspetto non stazionario del controllo del segnale in funzione dei livelli di congestione. Il meta-RL lavora autonomamente nel rilevamento degli stati del traffico, nella classificazione dei regimi di traffico e nell’assegnazione delle fasi del segnale”, spiega il prof. Sohn parlando del loro studio, che è stato reso disponibile online il 30 settembre 2022 ed è stato pubblicato sulRivista Computer-Aided Civil and Infrastructure Engineering del 30 settembre 2022.

Il modello funziona come segue. Determina il regime di traffico, saturo o insaturo, utilizzando una variabile latente che indica la condizione ambientale complessiva. Basato sul flusso di traffico, il modello massimizza il throughput o riduce al minimo i ritardi simili a un controller umano. Lo fa implementando fasi di semaforo (azione). Come con gli agenti di apprendimento intelligenti, l’azione è controllata dalla fornitura di una “ricompensa”. Qui, la funzione di ricompensa è impostata su +1 o -1, corrispondenti rispettivamente a prestazioni migliori o peggiori nella gestione del traffico rispetto all’intervallo precedente. Inoltre, l’EDQN funge da decodificatore per controllare congiuntamente i segnali stradali per più incroci.

Dopo il suo sviluppo teorico, i ricercatori hanno addestrato e testato il loro algoritmo meta-RL utilizzando Vissim v21.0, un simulatore di traffico commerciale, per imitare le condizioni del traffico del mondo reale. Inoltre, come banco di prova del mondo reale è stata scelta una rete di trasporti nel sud-ovest di Seoul composta da 15 incroci. Dopo il meta-training, il modello potrebbe adattarsi a nuovi compiti durante il meta-test senza modificare i suoi parametri.

Gli esperimenti di simulazione hanno rivelato che il modello proposto potrebbe cambiare attività di controllo (tramite transizioni) senza alcuna informazione esplicita sul traffico. Potrebbe anche differenziare i premi in base al livello di saturazione delle condizioni del traffico. Inoltre, il modello meta-RL basato su EDQN ha superato gli algoritmi esistenti per il controllo dei segnali stradali e potrebbe essere esteso a compiti con transizioni e ricompense diverse.

Tuttavia, i ricercatori hanno sottolineato la necessità di un algoritmo ancora più preciso per considerare diversi livelli di saturazione da un’intersezione all’altra. “La ricerca esistente ha impiegato l’apprendimento per rinforzo per il controllo dei segnali stradali con un unico obiettivo fisso. Al contrario, questo lavoro ha ideato un controllore in grado di selezionare autonomamente il target ottimale in base alle ultime condizioni di traffico. Il quadro, se adottato dalle agenzie di controllo dei segnali stradali, potrebbe produrre vantaggi di viaggio mai sperimentati prima”, conclude un ottimista il Prof. Sohn.

Di ihal