L’Intelligenza Artificiale (IA) di OpenAI, chiamata “Sora”, ha recentemente dimostrato un notevole miglioramento grazie all’aggiornamento della sua architettura con il “Vision Transformer (ViT)”. Questa tecnologia, sviluppata inizialmente da Google, è stata adottata da OpenAI per creare prodotti innovativi come “ChatGPT”.
Recentemente, Medium, una piattaforma tecnologica, ha introdotto la tecnologia “Spacetime Patch”, un componente chiave del modello AI di OpenAI per la creazione di video, Sora.
In pratica, Sora analizza suggerimenti di testo e identifica parole chiave come argomento, azione, luogo, tempo e atmosfera. Successivamente, utilizza queste parole chiave per cercare nei dati video e combinare frammenti appropriati, creando così nuovi video. Questi video possono essere personalizzati e ampliati secondo le preferenze dell’utente.
Sora segue un modello di diffusione, partendo da un video che appare come rumore e trasformandolo gradualmente in un video definito, rimuovendo il rumore attraverso vari passaggi. Come ChatGPT, Sora utilizza un’architettura a trasformatore per ottenere risultati di alta qualità.
I trasformatori, essendo in grado di comprendere il contesto e il significato dei dati sequenziali, sono stati adattati da Sora attraverso il “Vision Transformer”, una tecnologia precedentemente introdotta da Google DeepMind.
Sora converte i video in patch, le organizza in sequenza e le comprime in patch spaziotemporali, consentendo al modello di comprendere le relazioni spaziali e temporali all’interno del video. Questo approccio consente una gestione efficiente dei dati visivi senza necessità di preelaborazione.
Questo approccio non solo migliora la capacità di creare video ad alta definizione, ma riduce anche i costi di elaborazione rispetto ad altre IA generative.
D’altro canto, Google ha annunciato “Lumiere”, un modello di diffusione spaziotemporale che mira a migliorare il realismo dei video generati da testo o immagini. Anche se simile a Sora, Lumiere ha una capacità limitata nel generare video più lunghi.
Precedentemente, Google aveva presentato “Phenaki”, un modello basato su trasformatori che integra la generazione di video e testo, simile a Sora.
In generale, OpenAI ha guidato l’innovazione nell’IA generativa, con il suo lancio di ChatGPT nel 2022, mentre Google ha seguito con il rilascio di “Bard” nel marzo 2023.