CLIPDraw, un algoritmo per sintetizzare i disegni dal testo

CLIPDraw, un nuovo algoritmo che sintetizza i disegni dal testo

Credo che la preferenza per i disegni piuttosto che per il fotorealismo dia alle immagini più libertà di espressione

Iricercatori di Cross Labs, MIT, Earth-Life Science Institute e College of Arts and Sciences hanno recentemente introdotto CLIPDraw, un algoritmo per sintetizzare i disegni basati sull’input del linguaggio naturale. Il codice è disponibile su Colab Notebook .

“Il campo della ‘sintesi testo-immagine’ ha una vasta storia ei metodi attuali hanno mostrato una generazione di immagini incredibilmente realistica attraverso metodi simili a GAN. Il realismo, tuttavia, è un’arma a doppio taglio: c’è molto sovraccarico nella generazione di rendering fotorealistici, che spesso tutto ciò che vogliamo sono semplici disegni”, ha affermato Kevin Frans, ricercatore del MIT.

La tua esperienza necessaria! Compila il nostro veloce Sondaggio

CLIPDraw è ispirato a un gioco di disegno web e indovinelli Skribbl.io .

Come funziona CLIPDraw?
CLIPDraw è alimentato da un modello CLIP pre-addestrato (sviluppato da OpenAI). Il modello CLIP consiste in un codificatore di immagini e un codificatore di testo che mappano sullo stesso spazio di rappresentazione, consentendo di misurare le somiglianze tra immagini e testo. “E se siamo in grado di misurare le somiglianze, possiamo anche provare a scoprire immagini che massimizzano tale somiglianza, quindi corrispondendo a un determinato suggerimento testuale”, ha detto Frans.

Il ciclo di base CLIPDraw segue questo principio di sintesi attraverso l’ottimizzazione. Innanzitutto, inizia con un prompt di descrizione dato dall’uomo e un insieme casuale di curve di Bézier. Quindi, regola lentamente le curve attraverso la discesa del gradiente in modo che il disegno corrisponda al meglio al prompt dato. La curva di Bézier è una ” curva parametrica ” utilizzata nella computer grafica.

CLIPDraw non richiede alcuna formazione; invece, un codificatore di immagini in linguaggio CLIP pre-addestrato viene utilizzato come metrica per massimizzare la somiglianza tra la descrizione data e un disegno generato. Ancora più importante, CLIPDraw opera su tratti vettoriali piuttosto che su immagini pixel.

Attualmente, CLIPDraw produce una serie diversificata di disegni riconoscibili dall’uomo basati su tratti e forme semplici. “Un ottimo esempio di questo è ‘un dipinto di un cielo notturno stellato’, che mostra un cielo in stile pittorico con una ‘luna e stelle’, accanto a una vera tela e un pittore in primo piano, che poi presenta anche ‘nero e turbinii blu’ che ricordano ‘La notte stellata’ di Van Gogh, ha detto Frans.

“A volte, i disegni contengono simboli che non contengono letteralmente la descrizione, ma sono associati tangenzialmente, come il prompt “自転車” (bicicletta in giapponese) che ricorda uno screenshot di Google Maps con un carattere giapponese nell’angolo. L’ambiguità dei prompt presenta anche risultati intriganti. Nel prompt “Fast Food”, viene mostrato un logo di McDonald’s insieme a una serie di hamburger”, hanno detto i ricercatori.

In che modo CLIPDraw è diverso dagli altri metodi?

Rispetto ai metodi che apprendono un modello generativo diretto, i metodi di sintesi basati sull’ottimizzazione come CLIPDraw non richiedono una formazione preventiva. Invece, le immagini vengono generate attraverso un ciclo di ottimizzazione del tempo di valutazione, con l’obiettivo di massimizzare un determinato obiettivo. Questo lavoro si concentra esplicitamente sulla sintesi di immagini che corrispondono alla codifica CLIP di un prompt di descrizione.

Differenze chiave:

I disegni CLIPDraw sono prodotti da un insieme di curve di Bézier RGBA. È possibile regolare i punti di controllo, lo spessore e i colori delle curve.
Pixel Optimization, d’altra parte, ottimizza una matrice 224x224x3 di colori pixel RGB. Altrimenti, tutti gli aspetti algoritmici sono gli stessi di CLIPDraw, incluso l’aumento dell’immagine.
Ottimizzazione BigGAN, in cui le immagini vengono prodotte utilizzando un generatore BigGAN pre-addestrato. I pesi del generatore sono congelati; vengono ottimizzati solo i vettori Z latenti.
CLIPDraw (nessun aumento) è identico a CLIPDraw, tranne per il fatto che non viene applicato alcun aumento dell’immagine ai disegni sintetizzati.
Le immagini di vari metodi di sintesi attraverso l’ottimizzazione che corrispondono a una determinata frase di descrizione della codifica CLIP sono mostrate di seguito.

L’algoritmo CLIPDraw non è del tutto nuovo; le persone hanno fatto per un po’ di tempo la sintesi attraverso l’ottimizzazione attraverso metodi di attivazione-massimizzazione e recentemente attraverso “obiettivi di corrispondenza CLIP”. “Credo che preferire i disegni piuttosto che il fotorealismo dia alle immagini più libertà di espressione e l’ottimizzazione delle curve di Bézier è un bel modo per farlo in modo efficiente”, ha detto Frans, “Personalmente amo anche questo stile artistico e penso che i disegni siano piuttosto simile a quello che produrrebbe un artista”.

CLIPDraw, un algoritmo per sintetizzare i disegni dal testo

Diihal

Di ihal

Articoli correlati

Vibe Coding: nonno di 91 anni crea un’app per la Chiesa con Claude e Replit

Anthropic Claude trasforma ogni utente in uno sviluppatore di app no-code

ElevenLabs lancia l’app mobile per la sintesi vocale avanzata su iOS e Android

You missed

Moonvalley lancia Marey, un modello AI per la generazione di video 3D con controllo totale e senza problemi di copyright

La Cina costruisce un enorme data center nel deserto del Gobi con chip Nvidia vietati contro le sanzioni statunitensi

xAI si impegna a rimuovere i contenuti inappropriati di Grok dopo le critiche su pregiudizi e incitamento all’odio

LG AI Research Institute lancia EXAONE Path 2.0, AI medica per diagnosi e cura personalizzata