L’arte generativa con l’intelligenza artificiale sta vivendo un momento di grande interesse e popolarità, grazie a modelli come Stable Diffusion e Midjourney, che vantano milioni di utenti. Inoltre, OpenAI ha recentemente integrato il suo modello di generazione di immagini DALL-E 3 direttamente nel servizio ChatGPT, aprendo nuove possibilità creative per gli utenti. Questa evoluzione dell’arte generativa offre la possibilità di generare immagini basate su descrizioni testuali in pochi istanti, grazie agli algoritmi di intelligenza artificiale addestrati per questa specifica funzione.
Tuttavia, anche se il processo richiede solo pochi istanti, il concetto di attesa, anche breve, non sempre si adatta al nostro mondo moderno, orientato alla gratificazione istantanea e all’efficienza.
Ecco perché questa settimana, la comunità artistica online basata sull’intelligenza artificiale è in fermento per una nuova tecnica di apprendimento automatico chiamata LCM-LoRA, acronimo di “Latent Consistency Model-Low-Rank Adaptation”. Questa tecnica è stata sviluppata dai ricercatori dell’Institute for Interdisciplinary Information Sciences (IIIS) presso l’Università Tsinghua in Cina, in collaborazione con la piattaforma di condivisione di codice AI HuggingFace. L’approccio è stato dettagliato in un articolo pubblicato sul sito di ricerca pre-print arXiv.org ed è destinato a portare l’arte generativa basata sull’IA in tempo reale.
Ma cosa significa questo concretamente? Dai un’occhiata ai video condivisi dagli artisti AI su diverse piattaforme e capirai immediatamente l’effetto di questa tecnica.
In sostanza, grazie a LCM-LoRA, gli utenti possono ora interagire direttamente con i modelli di generazione artistica AI. Possono spostare cursori, disegnare forme stilizzate o applicare testo descrittivo e assistere all’istante alla creazione di opere d’arte completamente nuove e diverse. L’intelligenza artificiale risponde in tempo reale, permettendo agli utenti di sperimentare una creazione artistica immediata mentre manipolano forme o tracciano linee su una tela digitale.
Puoi persino sperimentare questa tecnica su piattaforme come Fal.AI (sempre che rimanga attiva con un uso più ampio).
L’innovazione non riguarda solo le immagini bidimensionali, ma si estende anche alle risorse tridimensionali, aprendo la possibilità di creare rapidamente ambienti immersivi utilizzabili in realtà aumentata, virtuale o mista (AR/VR/XR), nei videogiochi, nei film e in molte altre applicazioni. Ciò potrebbe non solo accelerare i processi di produzione ma anche ridurre i costi.
La comunità dell’IA generativa è entusiasta di questa tecnica, e molti vedono in essa una svolta significativa. La tecnologia promette di cambiare radicalmente il modo in cui interagiamo con l’arte generata dall’IA e offre nuove esperienze agli utenti.
Ma cosa c’è dietro questa tecnologia e quanto può adattarsi a diverse applicazioni, come suggeriscono i primi utenti?
Secondo il documento pubblicato dagli autori dell’Università Tsinghua e di HuggingFace, LCM-LoRA è essenzialmente un algoritmo progettato per accelerare la trasformazione di testo o immagini di origine in nuove opere d’arte generative AI. Questo processo è basato sui modelli di diffusione stabile open source e sulle loro varianti ottimizzate. LCM-LoRA riduce il numero di passaggi di campionamento richiesti, ovvero le operazioni che il modello AI deve eseguire per trasformare il testo o l’immagine di partenza in un’immagine di alta qualità e dettagliata, basata sulle conoscenze del modello di diffusione stabile, acquisite da milioni di immagini.
Grazie a questa riduzione delle fasi di campionamento, i modelli di diffusione stabile possono operare più velocemente e con meno risorse computazionali, producendo risultati straordinari in tempo reale.
La parola “universale” significa che questa tecnica può essere applicata a una varietà di applicazioni basate su Stable Diffusion o sue varianti per generare immagini. Tuttavia, resta da vedere se può essere estesa ad altri modelli proprietari come DALL-E 3 di OpenAI o Midjourney.