Gli strumenti di generazione artistica dell’IA che puoi effettivamente utilizzare
Ecco un elenco curato di tali strumenti che vanno oltre la semplice creazione di immagini da prompt testuali.
I generatori di arte AI da testo a immagine, che si tratti di DALL-E 2 o Midjourney, sono diventati il discorso di Internet. Ma generare arte usando l’IA non si limita alle sole immagini. Spingendo i confini dell’arte “da testo a immagine”, stanno arrivando sul mercato diversi strumenti di facile utilizzo sviluppati con capacità di miglioramento di video e audio.
Ecco un elenco curato di tali strumenti che vanno oltre la semplice creazione di immagini da prompt testuali.
Lucid Sonic Dreams – StyleGAN
È un pacchetto Python che sincronizza gli elementi visivi generati da GAN (Genetive Adversarial Network) con la musica utilizzando solo poche righe di codice.
Il Tutorial Notebook su Google Collab descrive in dettaglio tutti i parametri che è possibile modificare e fornisce modelli di codice di esempio.
FILM Colab
Sviluppato da Stephen Young , FILM trasforma le foto quasi duplicate in filmati al rallentatore che sembrano girati con una videocamera.
È un’implementazione Tensorflow 2 di una rete neurale di interpolazione frame di alta qualità. FILM segue un approccio unificato a rete singola che non utilizza altre reti pre-addestrate, come il flusso ottico o la profondità, per ottenere risultati all’avanguardia.
È un estrattore di funzionalità multi-scala che condivide gli stessi pesi di convoluzione su tutte le bilance. Il modello è addestrabile solo da triplette di telaio.
AnimationKit.ai
È uno strumento di elaborazione dell’interpolazione e dell’upscaling che utilizza l’upscaling video Real-ESRGAN per aumentare la risoluzione a 4x, l’interpolazione/movimento RIFE per rendere il metraggio fluido e la compressione FFMPEG hevc_nvenc (h265).
Fotografia 3D utilizzando la pittura di profondità a strati sensibile al contesto: 3D Photography using Context-aware Layered Depth Inpainting
È uno strumento per convertire una singola immagine di input RGB-D in una foto 3D.
Layered Depth Image viene utilizzata con la connettività diretta dei pixel come rappresentazione sottostante e presenta un modello che sintetizza iterativamente il nuovo contenuto locale di colore e profondità nella regione occlusa.
Utilizzando motori grafici standard, le foto 3D risultanti possono essere renderizzate in modo efficiente con il parallasse del movimento.
Wiggle Standalone 5.0
Wiggle Standalone genera fotogrammi chiave di animazione semi-casuali per lo zoom o la rotazione per l’uso.
Wiggle si basa su “episodi” di movimento. Ogni episodio è composto da tre fasi distinte: attacco (rampa in alto), decadimento (rampa in basso) e sostegno (mantieni il livello costante). Questo è simile nel concetto a un inviluppo ADSR in un sintetizzatore musicale.
I parametri consentono di impostare la durata complessiva di ogni episodio, la suddivisione del tempo tra le fasi ei livelli relativi dei parametri in ciascuna fase.
Wiggle può anche essere integrato direttamente nei notebook Diffusion.
Audio reactive videos notebook
Con questo notebook puoi trasformare qualsiasi video in audio reattivo.
Il volume del suono influisce sulla velocità del video generato; quindi si può rallentare il video originale se non ci sono abbastanza fotogrammi rimasti.
Generazione di oggetti guidati da testo zero con campi da sogno Zero-Shot Text Guided Object Generation with Dream Fields
Combina il rendering neurale con immagini multimodali e rappresentazioni di testo, sintetizzando diversi oggetti 3D solo dalle descrizioni linguistiche.
Questo quaderno mostra una versione ridotta di Dream Fields, un metodo per sintetizzare oggetti 3D da descrizioni in linguaggio naturale. Dream Fields addestra un campo di radianza neurale 3D (NeRF), quindi i rendering 2D da qualsiasi prospettiva sono semanticamente coerenti con una determinata descrizione. La perdita si basa sul modello testo-immagine OpenAI CLIP.
‘BLIP’: pre-formazione per il bootstrapping della lingua e dell’immagine, Bootstrapping Language-Image Pre-training
BLIP raggiunge lo stato dell’arte in sette compiti del linguaggio visivo, tra cui il recupero di immagini-testo, sottotitoli di immagini, risposta a domande visive, ragionamento visivo, dialoghi visivi e recupero di testo-video a scatto zero risposte a domande video a scatto zero.