Immagine AI

Runway, l’azienda all’avanguardia nell’intelligenza artificiale per la generazione di video, ha fatto il suo ingresso ufficiale nella competizione dei “modelli mondiali” con il lancio di GWM-1 (General World Model 1). Dopo aver preannunciato lo sviluppo di questa ambiziosa tecnologia lo scorso anno, l’azienda ha presentato il suo primo modello mondiale universale, che si articola in tre versioni distinte, ognuna ottimizzata per specifici ambiti applicativi: GWM-Mondi, GWM-Avatar e GWM-Robotica.

Il GWM-1 è costruito sulle fondamenta del modello di generazione video di ultima generazione, Gen-4.5, e si distingue per la sua capacità di generare video, fotogramma per fotogramma, in tempo reale. Questo design gli permette di rispondere immediatamente a una vasta gamma di input, inclusi i movimenti della telecamera, i comandi di controllo dei robot e persino l’audio, garantendo agli utenti la possibilità di manipolare e interagire con l’ambiente simulato in modo istantaneo.

La versione GWM-Mondi rappresenta un modello di simulazione interattivo che opera in tempo reale a 24 fotogrammi al secondo con una risoluzione di 720 pixel. Quando gli si fornisce una descrizione tramite prompt testuali o visivi, il modello genera istantaneamente un mondo virtuale in 3D, comprendendone la geometria, la fisica e le regole di illuminazione. Gli utenti possono esplorare liberamente questo spazio, rendendolo uno strumento estremamente versatile, ideale per lo sviluppo di giochi, la creazione di ambienti virtuali complessi e l’addestramento di agenti AI in simulazioni che replicano scenari reali con un elevato grado di fedeltà. Runway sostiene che il GWM-1 World è un modello più “generale” rispetto ai suoi concorrenti, come Genie-3 di Google, in grado di creare spazi di simulazione per la formazione di agenti in settori eterogenei come la robotica e le scienze della vita.

La seconda versione, GWM-Avatar, si concentra sulla creazione di avatar digitali di estremo realismo. Questo modello impara con precisione i movimenti umani, le espressioni facciali e i modelli comportamentali per generare figure virtuali altamente credibili, posizionandosi come un concorrente diretto delle tecnologie esistenti per la creazione di esseri umani virtuali come D-ID e Synthesia.

Infine, GWM-Robotics è specificamente progettato per apprendere il comportamento dei robot in condizioni operative diverse. Attraverso l’aggiunta di dati sintetici – come cambiamenti meteorologici improvvisi o la presenza di ostacoli – è possibile migliorare la reattività del robot. Inoltre, il modello è in grado di rilevare e segnalare situazioni in cui il comportamento del robot viola le politiche operative stabilite. Questa versione sarà resa disponibile come Software Development Kit (SDK), e Runway sta già valutando collaborazioni con diverse aziende di robotica.

Sebbene queste tre incarnazioni di GWM-1 siano state sottoposte a un addestramento separato per ottimizzare i rispettivi domini, Runway ha un obiettivo a lungo termine ben preciso: integrare i diversi domini e spazi d’azione in un unico modello mondiale unificato, un sistema che comprenda pienamente il funzionamento del mondo fisico e virtuale. Come ha affermato Anastasis Germanidis, Chief Technology Officer, la strategia corretta per costruire un modello globale è addestrarlo a prevedere direttamente i pixel, un metodo che ritengono essere la via migliore per ottenere una simulazione di uso generale su vasta scala.

Oltre al lancio del modello mondiale, Runway ha annunciato un aggiornamento significativo per il suo modello di punta per la generazione video, Gen-4.5. Questo modello, che all’inizio del mese ha superato il Veo 3 di Google nella classifica di Video Arena, vede ora migliorate le sue capacità di creazione e editing video. Tra i miglioramenti più rilevanti spicca la possibilità di creare video con una durata massima di un minuto e una coerenza dei personaggi notevolmente migliorata, essenziale per la continuità narrativa. È stato inoltre introdotto per la prima volta il supporto audio nativo, consentendo la sintesi naturale di dialoghi e musica di sottofondo e rendendo possibile una “produzione all-in-one” che crea video e audio simultaneamente. Altre funzionalità avanzate, come le composizioni multi-shot che uniscono scene diverse senza soluzione di continuità e le opzioni di editing che permettono l’inserimento di nuove tracce o dialoghi, consentono un flusso di lavoro di produzione video sistematico e flessibile, con la possibilità teorica di realizzare video di lunghezza illimitata. L’aggiornamento di Gen-4.5 è immediatamente disponibile per tutti gli utenti abbonati, consolidando ulteriormente la posizione di Runway nel settore della generazione video AI.

Di Fantasy