Home / AI tecnologia / Apprendimento del layout e dello stile GAN riconfigurabili per la sintesi di immagini controllabili

Apprendimento del layout e dello stile GAN riconfigurabili per la sintesi di immagini controllabili

I ricercatori sviluppano un nuovo metodo per controllare la generazione di immagini AI
 


Immagine: NC State UniversityI ricercatori della North Carolina State University hanno sviluppato un nuovo metodo per controllare la generazione di immagini dell’intelligenza artificiale (AI), che potrebbe essere utilizzato in campi come i veicoli autonomi.

Generazione di immagini condizionali e altre tecniche
La generazione di immagini condizionali è un’attività di intelligenza artificiale che coinvolge i sistemi di intelligenza artificiale che creano immagini in base a una serie specifica di condizioni, che l’utente può richiedere. Le tecniche più recenti si sono spinte ancora oltre e incorporano le condizioni per un layout di immagine, che consente agli utenti di specificare i tipi di oggetti che desiderano visualizzare in punti specifici dello schermo.

Il nuovo metodo all’avanguardia sviluppato dai ricercatori dell’università si basa su tutte queste tecniche e consente agli utenti di avere un maggiore controllo sulle immagini mantenendo determinate caratteristiche su una serie di immagini.

Tianfu Wu è co-autore del documento di ricerca e assistente professore di ingegneria informatica presso la NC State. 

“Il nostro approccio è altamente riconfigurabile”, afferma Wu. “Come gli approcci precedenti, il nostro consente agli utenti di fare in modo che il sistema generi un’immagine in base a un insieme specifico di condizioni. Ma il nostro ti permette anche di conservare quell’immagine e aggiungerla ad essa. Ad esempio, gli utenti potrebbero fare in modo che l’intelligenza artificiale crei una scena di montagna. Gli utenti potrebbero quindi fare in modo che il sistema aggiunga gli sciatori a quella scena”.

Manipolare gli elementi
Con il nuovo metodo, gli utenti possono anche consentire all’intelligenza artificiale di manipolare gli elementi in modo che siano identificabili come uguali mentre si muovono o cambiano in qualche modo. Un esempio potrebbe essere l’intelligenza artificiale che crea una serie di immagini in cui gli sciatori si girano verso lo spettatore mentre si muovono attraverso un paesaggio.

“Un’applicazione per questo sarebbe aiutare i robot autonomi a “immaginare” come potrebbe essere il risultato finale prima di iniziare un determinato compito”, afferma Wu. “Potresti anche utilizzare il sistema per generare immagini per l’addestramento sull’intelligenza artificiale. Quindi, invece di compilare immagini da fonti esterne, potresti usare questo sistema per creare immagini per addestrare altri sistemi di intelligenza artificiale”.

Il nuovo approccio è stato testato con il set di dati COCO-Stuff e il set di dati Visual Genome e, in base agli standard per la qualità dell’immagine, supera le precedenti tecniche all’avanguardia. 

“Il nostro prossimo passo è vedere se possiamo estendere questo lavoro a video e immagini tridimensionali”, afferma Wu.

Per addestrare il nuovo approccio, i ricercatori hanno dovuto fare affidamento su una workstation a 4 GPU data la forte potenza di calcolo richiesta. Nonostante ciò, l’implementazione del sistema è ancora meno costosa dal punto di vista computazionale. 

“Abbiamo scoperto che una GPU ti offre una velocità quasi in tempo reale”, afferma Wu.

“Oltre al nostro documento, abbiamo reso disponibile su GitHub il nostro codice sorgente per questo approccio. Detto questo, siamo sempre aperti alla collaborazione con i partner del settore”.

Top

Utilizzando il sito, accetti l'utilizzo dei cookie da parte nostra. maggiori informazioni

Questo sito utilizza i cookie per fornire la migliore esperienza di navigazione possibile. Continuando a utilizzare questo sito senza modificare le impostazioni dei cookie o cliccando su "Accetta" permetti il loro utilizzo.

Chiudi