I modelli da testo a immagine sono emersi a metà degli anni 2010 grazie ai progressi nelle reti neurali profonde. Tuttavia, molto prima di ChatGPT, l’entusiasmo per l’IA generativa è cresciuto con i modelli di testo in immagine OpenAI’s DALL-E, Google Brain’s Imagen e StabilityAI’s Stable Diffusion. Questi modelli di intelligenza artificiale generativa hanno attirato l’attenzione perché assomigliano a fotografie reali e opere d’arte disegnate a mano. Quindi, diamo un’occhiata ai primi cinque modelli di generazione di immagini open source che possono venire in tuo aiuto.

  • DeepFloyd IF. Sostenuto da Stability AI, DeepFloyd IF, il modello open source di testo e immagine del gruppo di ricerca DeepFloyd, combina immagini realistiche e comprensione del linguaggio. Consiste in un design modulare, caratterizzato da un codificatore di testo fisso e tre moduli di diffusione pixel interconnessi. Il modulo iniziale genera immagini di 64×64 px basate su prompt di testo, mentre i successivi moduli di super-risoluzione creano immagini di risoluzione crescente: 256×256 px e 1024×1024 px. L’intero modello sfrutta un codificatore di testo congelato derivato dal trasformatore T5 per estrarre gli incorporamenti di testo. Questi incorporamenti vengono quindi utilizzati in un’architettura UNet, che viene migliorata con attenzione incrociata e messa in comune dell’attenzione. Di conseguenza, questo modello supera i modelli esistenti, raggiungendo un impressionante punteggio FID zero-shot di 6,66 sul set di dati COCO.
  • Stable Diffusion v1-5. Testo latente al modello di immagine Stable Diffusion v1-5 unisce un codificatore automatico con un modello di diffusione per creare immagini fotorealistiche. È stato addestrato sull’ampio set di dati laion-aesthetics v2 5+ e messo a punto su 595.000 passaggi con una risoluzione di 512 × 512 pixel, questo modello ha la straordinaria capacità di generare immagini altamente realistiche basate su qualsiasi dato input di testo. Ha flessibilità nella generazione di immagini da un’ampia gamma di spazi latenti, invece di essere limitato a un insieme fisso di prompt di testo. La sua formazione su un set di dati di immagini di grandi dimensioni gli consente di possedere una comprensione più profonda delle caratteristiche dell’immagine, con conseguente generazione di immagini più realistiche. Stable Diffusion v1-5 è accessibile sia nella libreria Diffusers che nel repository RunwayML GitHub.
  • OpenJourney. Openjourney è un modello text-to-image gratuito e open source che produce arte AI nello stile di Midjourney poiché viene addestrato su un set di dati di oltre 124.000 immagini Midjourney v4. È una messa a punto della diffusione stabile. Sviluppato da PromptHero, uno dei principali siti Web di ingegneria rapida, Openjourney è il secondo modello di testo in immagine più scaricato su HuggingFace , dopo Stable Diffusion. Gli utenti preferiscono Openjourney per la sua capacità di generare immagini impressionanti con un input minimo e per la sua idoneità come modello base per la messa a punto.
  • DreamShaper. Costruito sull’architettura del modello di diffusione, Dream Shaper V7 preferito dai fan introduce miglioramenti nel supporto LoRA e nel realismo generale. Si basa sui miglioramenti apportati nella versione 6, che includevano un maggiore supporto LoRA, miglioramenti generali dello stile e una migliore generazione a un’altezza di 1024 pixel (sebbene si consiglia cautela quando si utilizza questa funzione). Produce immagini fotorealistiche con un offset del rumore e migliora la generazione in stile anime con tag booru. Migliora anche le prestazioni degli occhi a risoluzioni inferiori, fungendo da “correzione” per le versioni precedenti. L’impatto del “clip fix” della versione 3.32 può differire dalla versione 3.31, raccomandandone l’uso per il mixaggio. Coinvolge anche inpainting e outpainting.
  • Dreamlike Photoreal. Dreamlike Photoreal 2.0 è un modello fotorealistico basato su Stable Diffusion 1.5. Realizzato da DreamlikeArt, puoi migliorare il realismo delle tue immagini generate incorporando foto nel tuo prompt. Per ottenere i migliori risultati, utilizzare proporzioni non quadrate. Per le foto in stile verticale, si consiglia un rapporto di aspetto verticale, mentre un rapporto di aspetto orizzontale è più adatto per le foto di paesaggi. Questo modello è stato addestrato su immagini con dimensioni di 768×768 pixel, sebbene possa gestire efficacemente anche risoluzioni più elevate come 768x1024px o 1024x768px. In esecuzione su GPU A100 di livello server, vanta una velocità di generazione media di 4 secondi, superando le prestazioni di 8 GPU RTX 3090. Con la capacità di elaborare fino a 30 immagini contemporaneamente e generare fino a 4 immagini contemporaneamente, garantisce un flusso di lavoro efficiente. Include diverse funzionalità come l’upscaling, l’editing del linguaggio naturale, i miglioramenti del viso, la posa, la profondità, la replica dello schizzo e altro.
  • Waifu Diffusion. Ultimo ma non meno importante, abbiamo Waifu Diffusion , una versione ottimizzata (1.3) del modello Stable Diffusion, derivato da Stable Diffusion v1.4. Questo modello è specializzato nella generazione di immagini realistiche in stile anime e ha ottenuto riconoscimenti per la sua impressionante varietà e alta qualità. Il modello è stato addestrato su un set di dati di 680.000 campioni di immagini di testo ottenuti da un sito booru.

Di Fantasy