Nell’ambito della creazione di contenuti tramite Intelligenza Artificiale, la qualità del risultato finale è spesso direttamente proporzionale alla precisione e alla ricchezza del prompt testuale di partenza. In questo scenario, dove l’ingegneria del prompt è diventata una vera e propria forma d’arte, Google ha svelato una soluzione innovativa e ambiziosa: VISTA, l’Agente di Miglioramento Iterativo del Video e Auto-Miglioramento (Video Iterative Self Improvement Agent). VISTA non è un semplice strumento, ma un framework multi-agente di inferenza progettato per prendere una descrizione vaga e concisa e trasformarla in un prompt dettagliato, realistico e ottimizzato per la generazione di video di alta qualità.
Nonostante i rapidi progressi nei modelli text-to-video, la creazione di filmati che rispettino fedelmente le leggi della fisica, abbiano una coerenza audio-visiva e un alto grado di ingaggio rimane una sfida ardua. Gli strumenti di ottimizzazione dei prompt esistenti spesso falliscono a causa della complessità degli elementi in gioco: visivi, audio e contestuali. È qui che entra in gioco VISTA, un sistema che automatizza il processo di miglioramento del prompt attraverso un ciclo di inferenza continuo. L’obiettivo finale è migliorare l’aderenza visiva, l’accuratezza audio e la fedeltà contestuale del video generato.
Il cuore della potenza di VISTA risiede nel suo processo di miglioramento iterativo in quattro fasi, strutturato come un loop di auto-riflessione e raffinamento:
- Scomposizione e Riscrizione Iniziale del Prompt: L’idea di base fornita dall’utente viene scomposta in scene temporali distinte. Ogni scena viene analizzata in base a nove attributi fondamentali, tra cui durata, tipo di scena, personaggi, azioni, dialogo, ambiente visivo, inquadratura della telecamera, suono e atmosfera. A questo punto interviene Gemini 2.5 Flash, che riempie gli attributi mancanti e applica vincoli per garantire che il nuovo prompt riscritto sia aderente ai criteri di realismo, pertinenza e creatività.
- Campionamento e Confronto dei Video: VISTA campiona e confronta coppie di video generate sia dal prompt originale che da quelli riscritti. I criteri di confronto sono rigorosi e includono fedeltà visiva, rispetto del senso comune fisico, allineamento tra testo e video, allineamento tra audio e video e, soprattutto, il grado di coinvolgimento (engagement). Attraverso questo confronto, il sistema identifica il prompt che ha prodotto il video “vincente”.
- Analisi Critica Multi-Agente: Il video e il prompt vincenti vengono sottoposti a una critica intensa su tre aspetti fondamentali: visivo, uditivo e contestuale. Per ciascun aspetto, VISTA impiega tre tipi di “giudici” — un Giudice Generale, un Giudice Avversario e un Meta Giudice che sintetizza le due prospettive — che assegnano punteggi (da 1 a 10) su decine di parametri.
- Riflessione e Riscrizione Profonda: Infine, un Agente di Pensiero Profondo analizza tutte le critiche e i punteggi raccolti. Questo agente esegue un lavoro di raffinamento in sei passaggi per produrre un prompt ulteriormente distillato e migliorato. Questo prompt perfezionato viene quindi reimmesso nel sistema, creando un ciclo infinito di auto-miglioramento della qualità del video.
L’efficacia di VISTA è stata dimostrata chiaramente nei test: dopo aver attraversato il ciclo di miglioramento per cinque volte, i video generati dal modello Veo 3 di Google utilizzando il prompt raffinato di VISTA sono stati preferiti dagli esseri umani nel 66,4% dei casi rispetto ai video creati con il prompt originale e conciso. Il risultato è la trasformazione di un’idea di base in una lunga e dettagliata istruzione che massimizza le potenzialità del modello di generazione.
La particolarità più sorprendente, e che ha suscitato meraviglia nella comunità degli esperti, è che questo agente non necessita di riaddestramento o fine-tuning. La sua capacità di migliorare la qualità del video è puramente il risultato della sua auto-riflessione e del suo processo di inferenza durante la fase di test.
VISTA segna un punto di svolta nell’ingegneria dei prompt e nella creazione automatizzata di contenuti. Semplificando il passaggio dalla visione all’output di alta qualità, Google sta non solo migliorando i suoi modelli di generazione video, ma sta democratizzando la capacità di creare filmati complessi e ricchi di dettagli anche per gli utenti meno esperti nell’arte di comunicare con l’Intelligenza Artificiale.