xAI ha introdotto una nuova funzionalità denominata “Quality Mode” per il proprio modello Grok, progettata per migliorare la generazione di contenuti visivi riducendo errori strutturali e distorsioni tipiche dei sistemi precedenti. La nuova modalità si basa su un approccio di generazione progressiva che analizza e costruisce le immagini in unità più piccole, migliorando la comprensione del contesto e la fedeltà alle istruzioni fornite.
La tecnologia utilizza un metodo di previsione sequenziale in cui immagini e video vengono generati a partire da blocchi di dimensione 16×16 pixel. Questo processo consente al modello di costruire progressivamente la scena, mantenendo la coerenza spaziale e semantica tra le diverse parti dell’immagine. Secondo le informazioni disponibili, tale approccio riduce fenomeni come distorsioni geometriche, errori di posizionamento e il cosiddetto “prompt drift”, ovvero la perdita di aderenza alle istruzioni durante la generazione.
Un elemento centrale dell’architettura è l’adozione di una struttura Mixture-of-Experts (MoE). Questo tipo di configurazione attiva solo una parte dei moduli neurali per ciascun task, migliorando l’efficienza computazionale e la capacità di seguire le istruzioni del prompt. La selezione dinamica degli esperti consente al sistema di adattarsi alla complessità della richiesta, utilizzando risorse diverse per la generazione di immagini statiche o contenuti video.
L’infrastruttura di addestramento rappresenta un altro elemento rilevante. Il modello è stato sviluppato utilizzando il supercomputer “Colossus”, che integra oltre 110.000 GPU Nvidia GB200. Questa scala computazionale consente l’addestramento su dataset multimodali di grandi dimensioni e permette di migliorare la qualità delle rappresentazioni visive generate. L’uso di infrastrutture ad alta potenza evidenzia come la qualità dei modelli generativi sia strettamente legata alla disponibilità di risorse computazionali.
La modalità “Quality Mode” introduce una generazione più controllata. Invece di produrre rapidamente un’immagine completa, il modello costruisce gradualmente la scena, verificando la coerenza delle relazioni tra oggetti, prospettiva e illuminazione. Questo approccio è particolarmente utile per la generazione video, dove la continuità temporale rappresenta una delle principali sfide tecniche. La previsione sequenziale riduce le incongruenze tra frame e migliora la stabilità delle animazioni.
L’introduzione di questa modalità si inserisce in una tendenza più ampia verso modelli multimodali ad alta fedeltà. Le piattaforme AI stanno evolvendo da generatori di immagini artistiche a strumenti per la produzione di contenuti professionali, in cui la precisione delle relazioni spaziali e la coerenza narrativa diventano elementi fondamentali. L’approccio basato su blocchi e MoE consente di avvicinare la generazione automatica a standard qualitativi più elevati.
La generazione a blocchi migliora anche la gestione del contesto visivo. Ogni segmento dell’immagine viene valutato in relazione agli altri, riducendo errori comuni come oggetti sovrapposti in modo incoerente o proporzioni errate. Questo metodo introduce una forma di pianificazione spaziale, in cui il modello costruisce la scena come una sequenza di decisioni coordinate.
