Il 2022 è l’anno del Text-to-Anything dal test a qualcosa

Quest’anno ha visto molti sviluppi sui generatori d’arte, a partire dal DALL E-2 di Open AI, generatore di testo-immagine. Non solo i generatori di testo in immagine, il testo in audio, il testo in video e persino il testo in negozio sono diventati il discorso della città

Il film americano del 1964, ” What A Way To Go !”, vedeva il protagonista Larry Flint creare una macchina per dipingere per produrre la sua arte astratta. Sviluppa macchine per la pittura astratta costituite da un braccio controllabile con una mano a pennello. Spiegando il concetto a Louisa, la protagonista femminile, dice: “Le vibrazioni sonore che entrano vengono trasmesse a questa cellula fotoelettrica che dà quegli impulsi dinamici alle spazzole e alle braccia. È una fusione tra un mondo meccanizzato e l’anima umana”.

Ciò che il regista aveva immaginato nel 1964 con il film, i nostri programmatori hanno ottenuto tutto questo e molto altro nel 2022. Quest’anno ha visto molti sviluppi sui generatori d’arte, a partire dal generatore di testo-immagine DALL E-2 di Open AI . Non solo i generatori di testo in immagine, il testo in audio, il testo in video e persino il testo in negozio sono diventati il discorso della città. Vediamo alcuni dei sistemi più diffusi.

Da testo a immagine
L’anno è iniziato con DALL E-2, seguito rapidamente da Imagen , Midjourney e Stable Diffusion che hanno lasciato il segno nel settore. Oggi, il text-to-image non è limitato alla sola comunità di “esperti di tecnologia”. Viene sempre più utilizzato per vari usi. Cosmopolitan, ad esempio, ha avuto la sua copertina disegnata da DALL E2 per la sua edizione di giugno 2022. Jason Allen ha vinto il primo premio al concorso di belle arti della Colorado State Fair presentando un’arte realizzata da Midjourney . E per non dimenticare, il nostro evento interno Cypher 2022 , ha portato la grafica di Midjourney a un livello completamente diverso adornando l’intera sede con immagini futuristiche.

Mentre parliamo, assistiamo a una rivoluzione da testo a immagine che si svolge proprio davanti ai nostri occhi, avviata da DALL E-2 e portata a nuove vette da Stable Diffusion. Essendo open source, Stable Diffusion ci ha offerto opzioni che non avremmo mai pensato di poter avere. Ad esempio, oggi piattaforme popolari come Photoshop, Blender e persino Canva utilizzano i plug-in Stable Diffusion e i risultati sono semplicemente fantastici.

Da testo a video
Se il text-to-image è qui, il text-to-video può essere molto indietro? Non posso dire se ci siamo riusciti o meno, dato che il costo di calcolo per la generazione da testo a video è esponenzialmente alto, rendendo la formazione da zero quasi inaccessibile per la maggior parte degli utenti. Tuttavia, ci sono stati alcuni sviluppi anche in questo segmento.

A partire da Stable Diffusion X Runway, il settore ha visto molti altri giocatori rilasciare i propri modelli di text-to-video, come “Transframer” di DeepMind , che può generare video coerenti di 30 secondi, e NUWA Infinity di Microsoft , che afferma di essere capace di generare video di alta qualità da qualsiasi richiesta.

Meta è balzata sul carro con il suo nuovo sistema di intelligenza artificiale, “Make-A-Video”, che consente agli utenti di inserire richieste per realizzare clip video di alta qualità. Ciò che ci attende è una domanda a sé stante, ma dal momento che stiamo discutendo di immagini e video in 2D, sorge la domanda se esiste un modello generativo che crei modelli 3D utilizzando istruzioni di testo?

Da testo a 3D
Sì! I ricercatori sempre innovativi di Google hanno scoperto un metodo per produrre modelli 3D basati sulla parola di un utente . La nuova tecnologia, soprannominata “DreamFusion” , utilizza la diffusione 2D e si prevede che farà progressi significativi nella generazione da testo a immagine.

Text-to-audio
E se il text-to-image e il text-to-video non bastassero, ora sul mercato c’è anche il text-to-audio.

Un team di scienziati Meta ha rilasciato AudioGen , un modello generativo autoregressivo che genera campioni audio basati su input di testo.

Con audio, immagini e video creati semplicemente dando un messaggio, non c’è dubbio che il 2022 sia stato l’anno del text-to-anything. Questo pone anche la domanda, cosa c’è dopo? Con l’intelligenza artificiale che avanza a una velocità inimmaginabile, è difficile prevederlo. Ma teniamo gli occhi aperti per questo.

Il 2022 è l’anno del Text-to-Anything dal test a qualcosa

Diihal

Di ihal

Articoli correlati

NC AI presenta VARCO 3D 2.0, modello generativo per creare asset 3D da testo e immagini

Krea rilascia i pesi di Krea 2 Raw e Krea 2 Turbo per la generazione di immagini

Castello di Foglizzo, Le Quattro Stagioni di Vivaldi diventano un’esperienza immersiva con immagini generate dall’intelligenza artificiale

Ultimi Post

Intelligenza artificiale nella moda: immagini di campagna e contenuti digitali prodotti con prompt

Buildots Intelligence Lab porta benchmark e analisi AI nei cantieri

MRAgent riduce i token usati per la memoria degli agenti AI nelle attività a lungo raggio

EaseDone AI riunisce scrittura, ricerca, analisi documenti e creazione immagini in un’unica piattaforma