Uno dei compiti più importanti per un’auto a guida autonoma quando si tratta di sicurezza è il monitoraggio di pedoni, oggetti e altri veicoli o biciclette. Per fare ciò, le auto a guida autonoma si affidano a sistemi di localizzazione. Questi sistemi potrebbero diventare ancora più efficaci con un nuovo metodo sviluppato dai ricercatori della Carnegie Mellon University (CMU).
Il nuovo metodo ha sbloccato dati di guida molto più autonomi rispetto a prima, come i dati su strada e traffico che sono cruciali per l’addestramento dei sistemi di localizzazione. Più dati ci sono, più successo può avere l’auto a guida autonoma.
Il lavoro è stato presentato alla conferenza virtuale Computer Vision and Pattern Recognition (CVPR) dal 14 al 19 giugno.
Himangi Mittal è uno stagista di ricerca che lavora a fianco di David Held, un professore assistente presso il Robotics Institute della CMU.
“Il nostro metodo è molto più robusto rispetto ai metodi precedenti perché possiamo allenarci su set di dati molto più grandi”, ha detto Mittal.
Lidar e Scene Flow
La maggior parte dei veicoli autonomi di oggi fa affidamento su lidar come principale sistema di navigazione. Lidar è un dispositivo laser che osserva ciò che circonda il veicolo e genera informazioni 3D da esso.
Le informazioni 3D si presentano sotto forma di una nuvola di punti e il veicolo utilizza una tecnica chiamata flusso di scena per elaborare i dati. Il flusso di scena implica la velocità e la traiettoria di ciascun punto 3D da calcolare. Quindi, ogni volta che ci sono altri veicoli, pedoni o oggetti in movimento, vengono rappresentati nel sistema come un gruppo di punti che si muovono insieme.
I metodi tradizionali per l’addestramento di questi sistemi di solito richiedono set di dati etichettati, ovvero dati del sensore che sono stati annotati per tenere traccia dei punti 3D nel tempo. Poiché questi set di dati devono essere etichettati manualmente e sono costosi, esiste una quantità minima. Per ovviare a questo, i dati simulati vengono utilizzati nell’allenamento del flusso di scene e, sebbene sia meno efficace dell’altro modo, una piccola quantità di dati del mondo reale viene utilizzata per migliorarli.
I ricercatori nominati, insieme a Ph.D. lo studente Brian Okorn, ha sviluppato il nuovo metodo utilizzando dati senza etichetta nell’allenamento del flusso di scene. Questo tipo di dati è molto più facile da raccogliere e richiede solo che un lidar sia posizionato sopra un’auto mentre guida.
Rilevamento di errori
Affinché ciò funzioni, i ricercatori hanno dovuto trovare un modo per il sistema di rilevare i propri errori nel flusso di scene. Il nuovo sistema cerca di fare previsioni su dove finirà ogni punto 3D e quanto velocemente sta viaggiando, e quindi misura la distanza tra la posizione prevista e la posizione effettiva del punto. Questo è ciò che costituisce un tipo di errore da minimizzare.
Dopo tale processo, il sistema si inverte e lavora all’indietro dalla posizione del punto prevista per mappare l’origine del punto. Misurando la distanza tra la posizione prevista e il punto di origine, il secondo tipo di errore viene formato dalla distanza risultante.
Dopo aver rilevato questi errori, il sistema lavora per correggerli.
“Si scopre che per eliminare entrambi questi errori, il sistema deve effettivamente imparare a fare la cosa giusta, senza che venga mai detto qual è la cosa giusta”, ha detto Held.
I risultati hanno dimostrato l’accuratezza del flusso di scena al 25% quando si utilizzava un set di addestramento di dati sintetici e quando è stato migliorato con una piccola quantità di dati del mondo reale, tale numero è aumentato al 31%. Il numero è migliorato ancora di più fino al 46% quando è stata aggiunta una grande quantità di dati senza etichetta per addestrare il sistema.