Scopri Phraser, lo strumento di intelligenza artificiale che stimola le reti neurali
Ciò che rende eccitante questa funzione di ricerca intelligente è la facilità con cui consente agli utenti di eseguire ricerche direttamente attraverso i prompt, eliminando la confusione delle parole chiave
 
Viviamo nei tempi degli strumenti di intelligenza artificiale da testo a immagine che sono disponibili in abbondanza. E ora con l’introduzione di Phraser, la prima applicazione al mondo che utilizza l’apprendimento automatico per aiutare gli utenti a scrivere prompt per le reti neurali, il lavoro diventa ancora più semplice. 

Denis Shilo, CEO di Facel, ha sviluppato Phraser con l’obiettivo di promuovere la ricerca intelligente. Le caratteristiche principali di Phraser includono semplici passaggi come la scelta di uno stile, la selezione del tipo di contenuto, la scelta della qualità del colore, la regolazione delle impostazioni della fotocamera, ecc. 

 
Ciò che rende eccitante questa funzionalità di ricerca intelligente è la facilità con cui consente agli utenti di eseguire ricerche direttamente attraverso i prompt, eliminando la confusione delle parole chiave e di altre procedure. Funziona su un milione di database di immagini, precedentemente sviluppati tramite Midjourney, DALLE-2 e Stable Diffusion (modelli da testo a immagine). Gli sviluppatori percepiscono questo strumento come economico e che fa risparmiare tempo, poiché gli utenti possono verificare immediatamente come parole chiave, funzioni e stili diversi vengono ora aggiunti all’editor di prompt. 

Come funzionavano le reti neurali (diffusione stabile) prima di Phraser?
I modelli di sintesi delle immagini (ISM) utilizzano una tecnica nota come diffusione latente. In primo luogo, il modello impara a identificare forme familiari in mezzo al rumore e porta quegli elementi al centro del fuoco se affondano con le parole nel prompt. 

 
Per iniziare questo processo, una persona o un gruppo che istruisce il modello assembla le immagini con i metadati (incluse tutte le didascalie e i tag sul web), formando così un ampio database. In caso di Stable Diffusion, Stability AI utilizza una combinazione del set di immagini LAION-5 B , che si basa su una raccolta di 5 miliardi di immagini pubblicamente disponibili sul web. Secondo una recente ricerca, una parte significativa di tali immagini proviene da siti come Pinterest, Getty Images o Devian Art. Pertanto, Stable Diffusion adotta gli stili di più artisti viventi.

Un altro passaggio richiederebbe l’addestramento del modello sul set di dati dell’immagine dal pool di centinaia di GPU di fascia alta come Nvidia A100. Secondo Emad Mostaque, fondatore di Stability AI, il costo di formazione per Stable Diffusion è di circa $ 660.000 . Durante il periodo di formazione, il modello mette in relazione parole e immagini con l’aiuto di una tecnica nota come CLIP (Contrastive Language–Image Pre-training), creata da Open AI lo scorso anno. 


A questo punto, Stable Diffusion non si preoccupa se una persona ha quattro braccia, sei teste o sette dita, a patto che uno sia un professionista nella generazione di prompt di testo, che viene anche definita ingegneria rapida dagli artisti dell’IA. Potrebbe essere necessario sviluppare molte immagini e selezionare quelle buone. Ricorda che più un prompt si sincronizza con i sottotitoli per le immagini familiari nel set di dati, più impressionanti saranno i risultati. E Phraser sta semplificando l’interfaccia di tutte queste reti neurali grazie alla facilità di scrittura dei prompt. 


Con il coinvolgimento di Phraser, devi semplicemente premere il pulsante Stable Diffusion nella prima schermata e Phraser farà il resto. Inoltre, i creatori hanno anche rimosso la barriera linguistica, consentendo così di utilizzare la ricerca rapida in cinque lingue.

Scenario dopo Phraser 
Ci si aspetta che Phraser migliori gli attributi esistenti di queste reti da testo a immagine; arricchirebbe l’abilità artistica di Midjourney e la capacità di DALLE-2 di creare immagini più realistiche con suggerimenti. 

Di ihal