Uno dei più noti modelli di visione artificiale, You Only Look Once (YOLO), si distingue per la sua velocità nell’elaborazione delle immagini e la precisione nel rilevamento degli oggetti. Questo algoritmo cerca di identificare la classe di un oggetto e tracciarne la posizione sull’immagine di input tramite un rettangolo di delimitazione.
Da quando Joseph Redmon ha introdotto YOLO nel 2015, sono state rilasciate diverse iterazioni, con la versione più recente sviluppata dalla piattaforma AI Ultralytics, nota anche per YOLO v3 e YOLO v5.
YOLO v9 è un modello all’avanguardia con funzionalità innovative che rivoluzioneranno ulteriormente il rilevamento degli oggetti, la segmentazione delle immagini e la classificazione. Le sue nuove caratteristiche permettono un’elaborazione più veloce, dettagliata e flessibile.
Un recente documento di ricerca ha proposto l’utilizzo di Programmable Gradient Information (PGI) per superare le limitazioni informative e adattare la supervisione profonda alle reti neurali leggere. Inoltre, è stata sviluppata la Generalized Efficient Layer Aggregation Network (GELAN), una rete neurale efficiente e pratica che offre prestazioni solide e stabili per il rilevamento degli oggetti.
La combinazione di PGI e GELAN nel design di YOLO v9 ha portato a miglioramenti significativi nella precisione, riducendo contemporaneamente il numero di parametri del modello e la quantità di calcoli necessari rispetto alla versione precedente, YOLO v8. Nonostante ciò, YOLO v9 ha dimostrato un miglioramento della precisione media dello 0,6% sul set di dati MS COCO.
Il più recente modello YOLO-v supera RT-DETR (Realtime Detection Transformer) e YOLO MS in termini di precisione ed efficienza, utilizzando la convoluzione convenzionale per massimizzare l’utilizzo dei parametri e stabilire nuovi standard nelle prestazioni dei modelli leggeri.