La settimana scorsa, il mondo di internet è stato sconvolto dal lancio di Sora, il primo modello di generazione video di OpenAI, ma ha anche scatenato critiche da parte di esperti e ricercatori di aziende concorrenti riguardo al modello trasformatore di Sora, soprattutto sulla sua fisica.
Gary Marcus, uno scienziato specializzato in intelligenza artificiale, è stato tra coloro che hanno criticato non solo l’accuratezza dei video generati da Sora, ma anche il modello AI generativo utilizzato per la sintesi video. Allo stesso tempo, Meta e Google hanno messo in dubbio la comprensione del modello di Sora del mondo fisico, minando la struttura del suo modello di diffusione.
Yann LeCun, a capo di Meta, ha sottolineato che la capacità di generare video dall’aspetto realistico non implica la comprensione del mondo fisico da parte di un sistema. Ha distinto Sora dall’ultima offerta di modelli AI di Meta, V-JEPA, che analizza le interazioni tra oggetti nei video. Ha enfatizzato che JEPA non è generativa ma fa previsioni nello spazio di rappresentazione, suggerendo una superiorità del modello auto-supervisionato di V-JEPA rispetto al modello del trasformatore di diffusione di Sora.
Eric Xing, ricercatore e imprenditore, ha espresso sostegno alle opinioni di LeCun, sottolineando che un modello che ragiona in base alla comprensione deve andare oltre i LLM o i DM.
Il modello Gemini Pro 1.5 di Google è intervenuto, sottolineando le incongruenze nei video generati da Sora e suggerendo che non rappresentano scene reali.
Elon Musk ha poi affermato che le capacità di generazione video di Tesla sono superiori a quelle di OpenAI in termini di previsione fisica accurata.
Nonostante le critiche, la comprensione della fisica dietro il modello generativo è stata trascurata. OpenAI sostiene che Sora, utilizzando un’architettura trasformatore simile ai modelli GPT, possa comprendere e simulare il mondo reale, contribuendo al raggiungimento dell’AGI. Sebbene non sia un motore fisico, è possibile che i dati generati da Unreal Engine 5 siano stati utilizzati per addestrare il modello di Sora.
Jim Fan, ricercatore senior presso NVIDIA, ha chiarito il modello di Sora di OpenAI, spiegando che apprende un motore fisico implicitamente nei parametri neurali. Ha anche espresso disapprovazione per le opinioni riduzioniste su Sora, sostenendo che ridurre il suo lavoro a semplice manipolazione di pixel è come dire che GPT-4 non impara la codifica, ma campiona solo stringhe.
Aravind Srinivas, fondatore di Perplexity, ha parlato a sostegno di LeCun, affermando che Sora, pur essendo sorprendente, non è ancora pronto per modellare accuratamente la fisica.
OpenAI ha riconosciuto i limiti di Sora, ammettendo che potrebbe avere difficoltà a simulare accuratamente la fisica di una scena complessa o a comprendere specifiche cause ed effetti. Tuttavia, ciò non compromette la qualità dell’output generato.
Infine, il post ha ricordato il “momento GPT-3” del 2020 come una prima convincente dimostrazione dell’apprendimento in contesto. Con l’acquisizione di Global Illumination da parte di OpenAI, le potenzialità nel mondo dei videogiochi sono aumentate, lasciando presagire che, se Sora è il GPT-3 del momento, il futuro GPT-4 sarà ancora più rivoluzionario. Nel frattempo, gli scettici continuano a dibattere, imparando probabilmente l’uno dall’altro.