Meta AI e l’Università di Amsterdam hanno recentemente condotto una ricerca che ha rivoluzionato le architetture di rete neurale per la visione artificiale. Lo studio ha dimostrato che i trasformatori, una popolare architettura neurale, possono operare direttamente sui singoli pixel di un’immagine senza fare affidamento sul concetto tradizionale di località.
Tradizionalmente, le reti neurali convoluzionali (ConvNets) e i Vision Transformers (ViTs) hanno incorporato la località attraverso tecniche come i kernel convoluzionali e il pooling, che presuppongono che i pixel vicini siano più correlati. Tuttavia, i Pixel Transformers (PiT) introdotti nello studio trattano ogni pixel come un token individuale, eliminando questo presupposto sulla struttura a griglia 2D delle immagini.
I PiT hanno sorprendentemente mostrato risultati molto promettenti in vari compiti di visione. Seguendo l’architettura dei Diffusion Transformers (DiT), i PiT hanno ottenuto parametri di qualità come Fréchet Inception Distance (FID) e Inception Score (IS) superiori rispetto alle architetture basate sulla località.
Sebbene i PiT siano computazionalmente costosi a causa delle sequenze più lunghe, il loro successo mette in discussione l’importanza della località nelle architetture di visione. Il miglioramento nella gestione di sequenze di dati di grandi dimensioni potrebbe rendere i PiT più pratici per applicazioni reali.
Questo studio rappresenta un passo significativo verso la creazione di sistemi neurali più versatili e capaci per una vasta gamma di compiti di visione e modalità di dati, riducendo i pregiudizi induttivi nelle architetture neurali.
Oltre a ciò, ci sono stati recenti sviluppi nei modelli di generazione di immagini come Midjourney, Stable Diffusion e Invoke, ciascuno con nuove funzionalità e miglioramenti significativi nelle prestazioni di generazione di immagini e interpretazione dei dati.
Stability AI, ad esempio, ha annunciato Stable Diffusion 3, il modello più potente per la conversione testo-immagine, caratterizzato da notevoli progressi in termini di qualità dell’immagine, precisione nelle istruzioni multi-soggetto e capacità di generare immagini coerenti.