La startup specializzata in media sintetici, Stability AI, ha recentemente presentato al pubblico il suo primo modello di base di intelligenza artificiale generativa, noto come Stable Video Diffusion. Questo modello open source è in grado di creare video originali a partire da istruzioni testuali ed è ora disponibile in anteprima per i ricercatori e gli appassionati interessati.

Il sistema Stable Video Diffusion è disponibile in due varianti, ciascuna delle quali può generare video composti da 14 a 25 fotogrammi, con la possibilità di regolare la frequenza dei fotogrammi da 3 a 30 al secondo. Generalmente, questi video sono di breve durata, spesso inferiori ai quattro secondi. Inoltre, il modello può essere personalizzato per applicazioni specializzate, come la creazione di modelli 3D multivista.

Stability AI ha annunciato l’intenzione di sviluppare ulteriormente questo modello, creando un ecosistema di funzionalità estese, simile al successo ottenuto con il suo generatore di immagini, Stable Diffusion. L’azienda ha sottolineato che valutazioni esterne hanno confermato che i suoi modelli superano alcuni dei migliori modelli proprietari disponibili sul mercato. Inoltre, è importante notare che Stability AI ha addestrato il suo modello utilizzando video di pubblico dominio per scopi di ricerca, un passo significativo considerando le sfide legali legate all’uso di immagini protette da copyright per l’addestramento di prodotti simili.

“Questo modello all’avanguardia per la generazione di video mediante intelligenza artificiale rappresenta un passo fondamentale nel nostro impegno per rendere questi modelli accessibili a tutti”, ha dichiarato Stability AI in un post sul blog. “Le valutazioni esterne hanno dimostrato che, nella loro forma base, questi modelli superano i principali modelli proprietari in studi sulle preferenze degli utenti”, ha aggiunto l’azienda, facendo riferimento al confronto con piattaforme di testo in video come Runway e Pika Labs.

I utenti che sono in lista d’attesa presto avranno accesso a un’interfaccia web che illustra varie applicazioni di conversione da testo a video, che spaziano dall’ambito pubblicitario all’educazione, all’intrattenimento e ad altri settori. Tuttavia, è importante notare che il sistema attuale presenta alcune limitazioni, tra cui la mancanza di input testuali, limiti di realismo fotografico e opzioni di movimento della fotocamera, con esclusione del panning. Ulteriori miglioramenti in termini di sicurezza e qualità sono previsti prima del rilascio completo.

“Vogliamo sottolineare che, in questa fase, il modello non è destinato a scopi commerciali o applicazioni in situazioni reali”, ha precisato l’azienda.

Da quando ha raccolto un finanziamento di 101 milioni di dollari nell’ottobre dell’anno scorso, Stability AI ha fatto progressi significativi nel suo portafoglio di prodotti e nell’avanzamento della sua tecnologia. Gli sviluppi recenti includono SDXL su ClipDrop, un’app acquisita dall’azienda l’anno scorso, con un’API in fase di sviluppo, nonché l’SDK Stable Animation per la creazione di animazioni e il generatore di immagini DeepFloyd IF, che non fa uso del modello Stable Diffusion. Inoltre, Stability AI si è anche spinta oltre il campo della generazione visiva, presentando il suo ampio linguaggio di modellazione StableLM, in grado di comporre testo e codice informatico.

Di Fantasy