Le tecnologie di intelligenza artificiale (AI), in particolare i Vision Transformers (ViTs), hanno dimostrato un enorme potenziale nella capacità di identificare e classificare gli oggetti nelle immagini. Tuttavia, l’applicazione pratica di queste tecnologie ha incontrato due sfide significative: l’elevato requisito di potenza di calcolo e la mancanza di trasparenza nel processo decisionale. Fortunatamente, un gruppo di ricercatori ha recentemente sviluppato una soluzione rivoluzionaria chiamata “attenzione da patch a cluster” (PaCa). Questa metodologia mira a migliorare le capacità dei ViT nell’identificazione, classificazione e segmentazione degli oggetti nelle immagini, risolvendo allo stesso tempo i problemi legati alle esigenze computazionali e alla chiarezza decisionale.
I modelli di intelligenza artificiale basati su trasformatori sono tra i più influenti nel campo dell’IA. Grazie all’estensione di queste potenti capacità al campo dei dati visivi tramite i Vision Transformers (ViT), è stato possibile ottenere progressi significativi nell’interpretazione e nella comprensione delle immagini. Tuttavia, i ViT sono stati limitati da due sfide importanti.
In primo luogo, a causa della natura delle immagini, che contengono una grande quantità di dati, i ViT richiedono una notevole potenza di calcolo e memoria. Questa complessità può essere un ostacolo per molti sistemi, soprattutto quando si lavora con immagini ad alta risoluzione. In secondo luogo, il processo decisionale all’interno dei ViT spesso risulta oscuro e poco trasparente. Gli utenti trovano difficile comprendere come i ViT distinguano tra diversi oggetti o caratteristiche in un’immagine, aspetto cruciale per numerose applicazioni.
Tuttavia, grazie alla metodologia innovativa di PaCa, è possibile affrontare entrambe queste sfide. “Abbiamo affrontato la sfida delle esigenze computazionali e di memoria utilizzando tecniche di clustering, che consentono all’architettura del trasformatore di identificare e concentrarsi meglio sugli oggetti all’interno di un’immagine”, spiega Tianfu Wu, autore corrispondente di un articolo sul lavoro e professore associato di Ingegneria Elettrica e Informatica presso la North Carolina State University.
L’uso delle tecniche di clustering in PaCa riduce drasticamente i requisiti computazionali, trasformando il problema da un processo quadratico a uno lineare gestibile. Wu spiega ulteriormente il processo: “Grazie al clustering, siamo in grado di renderlo un processo lineare, in cui ogni unità più piccola deve essere confrontata solo con un numero predeterminato di cluster”.
Il clustering aiuta anche a rendere il processo decisionale dei ViT più chiaro. Il processo di formazione dei cluster rivela come il ViT decide quali caratteristiche sono importanti nell’aggregare le sezioni dei dati dell’immagine. Poiché l’intelligenza artificiale crea solo un numero limitato di cluster, gli utenti possono facilmente comprendere ed esaminare il processo decisionale, migliorando significativamente l’interpretabilità del modello.
Attraverso test completi, i ricercatori hanno scoperto che la metodologia PaCa supera le altre implementazioni dei ViT su diversi aspetti. Wu afferma: “Abbiamo scoperto che PaCa ha superato SWin e PVT in ogni aspetto”. I test hanno dimostrato che PaCa eccelle nella classificazione e nell’identificazione degli oggetti all’interno delle immagini, oltre a fornire una segmentazione precisa dei confini degli oggetti. Inoltre, è risultato essere più efficiente in termini di tempo, eseguendo le attività in modo più rapido rispetto ad altri ViT.
Incoraggiati dal successo di PaCa, il team di ricerca mira a sviluppare ulteriormente la metodologia utilizzando set di dati più ampi. In questo modo, sperano di spingere i limiti delle attuali capacità dell’intelligenza artificiale basata sulle immagini.
Il documento di ricerca, intitolato “PaCa-ViT: Learning Patch-to-Cluster Attention in Vision Transformers”, sarà presentato alla prossima Conferenza IEEE/CVF su Computer Vision and Pattern Recognition. Si tratta di un traguardo importante che potrebbe aprire la strada a sistemi di intelligenza artificiale più efficienti, trasparenti e accessibili.