Immagine AI

L’interesse per i modelli mondiali (World Models) ha raggiunto il culmine nel panorama dell’Intelligenza Artificiale, con i principali player globali che si affrettano a presentare le loro visioni per sistemi capaci non solo di generare contenuti, ma di simulare e prevedere il comportamento di un ambiente complesso. In questo fervente contesto, anche gli Emirati Arabi Uniti (EAU) hanno fatto il loro ingresso, con i ricercatori della Mohammed bin Zayed University of Artificial Intelligence (MBZUAI) che hanno rilasciato un nuovo modello denominato PAN attraverso un archivio online.

Sebbene il modello si basi sull’architettura open source di derivazione cinese e, a un primo sguardo, non pretenda di superare le prestazioni assolute dei giganti commerciali, il suo rilascio è di fondamentale importanza, in quanto si unisce all’attuale ondata globale di modelli mondiali, sottolineando la crescente democratizzazione e l’espansione geografica di questa ricerca strategica.

PAN si inserisce nella categoria dei modelli testo-video, progettati per consentire simulazioni interattive a lungo termine, una caratteristica distintiva dei World Models di nuova generazione. La sua architettura centrale è la Generative Latent Prediction (GLP). Questo framework è specificamente studiato per separare le leggi fisiche del mondo virtuale (la dinamica latente) dalla sua rappresentazione visiva (rendering).

Il processo si articola in tre passaggi fondamentali:

  • Un codificatore di visione riceve le immagini o i frame video e li mappa in una rappresentazione astratta, o “mondo virtuale”.
  • Un sistema autoregressivo di dinamica latente, costruito attorno a un ampio modello linguistico (Large Language Model), prende in carico questa rappresentazione e predice lo stato successivo del mondo, basandosi sulle azioni precedenti o sullo stato attuale.
  • Infine, un decodificatore di diffusione video ricostruisce la simulazione in un output video coerente e visivamente credibile.

Il know-how tecnico di PAN è costruito su fondamenta open source esistenti: il codificatore di visione e la struttura portante poggiano sul codice di Alibaba, specificamente “QONE2.5-VL-7B-Instruct”. Anche il decodificatore di diffusione video è stato sviluppato a partire dal modello di generazione video di Alibaba, “Wan2.1-T2V-14B”. Il team di ricerca MBZUAI ha poi ottimizzato e addestrato il decodificatore per garantire che si allineasse sia ai mondi latenti previsti dal sistema che agli input in linguaggio naturale. I dati di addestramento sono stati scrupolosamente raccolti da fonti video pubbliche ampiamente disponibili e segmentati in clip coerenti utilizzando filtri e tecniche di rifinitura personalizzate.

Per valutare l’efficacia di PAN, i ricercatori lo hanno confrontato lungo tre dimensioni critiche: fedeltà comportamentale, stabilità predittiva a lungo termine e inferenza e pianificazione della simulazione. I benchmark hanno incluso modelli di simulazione esistenti come “V-Zephyr 2” di Meta e “Cosmos” di NVIDIA, oltre a noti modelli di generazione video. È importante notare che, pur non avendo incluso giganti come “Zenie 3” di Google nei benchmark, i risultati ottenuti da PAN si sono rivelati sorprendentemente robusti.

Nella simulazione degli agenti, PAN ha raggiunto un’accuratezza del 70,3%, e del 47% nella simulazione dell’ambiente, con una fedeltà comportamentale media del 58,6%. Questo posiziona PAN come il valore più alto tra i modelli open source di riferimento e lo rende comparabile alla maggior parte dei modelli commerciali esistenti. Nei test sulla stabilità delle previsioni a lungo termine, il modello è riuscito a superare modelli video commerciali come Kling e Minimax, dimostrando una fluidità di transizione del 53,6% e una coerenza della simulazione del 64,1%. Inoltre, quando è stato utilizzato come simulatore all’interno del ciclo “o3” di OpenAI per l’inferenza e la pianificazione, PAN ha raggiunto un’accuratezza del 56,1% nelle simulazioni passo-passo, il valore più elevato tra i modelli open source testati.

Il rilascio di PAN è un segnale che l’interesse di MBZUAI, la prima università al mondo focalizzata sull’Intelligenza Artificiale, si sta espandendo ben oltre il campo iniziale della generazione di immagini (come dimostrato dal precedente “LlamaV-o1”). Sebbene PAN sia basato su modelli di generazione video, ha chiaramente dimostrato il potenziale per estendersi a modelli mondiali pratici e funzionali.

Di Fantasy