La Dream Machine di Luma AI ha dimostrato capacità impressionanti, ma anche una tendenza a creare immagini di “body horror”. Anche se molti hanno cercato di manipolare il modello per generare video non appropriati, molti risultati sono stati scioccanti.
Non è raro che l’IA generativa produca immagini disturbanti quando cerca di rappresentare esseri umani. Problemi come dita sovrannumerarie, proporzioni corporee sbagliate e volti fusi sono comuni con le prime versioni di modelli come DALL-E, Midjourney e Stable Diffusion.
Yann LeCun, scienziato senior dell’IA di Meta, ha spiegato che attualmente è quasi impossibile per i modelli di generazione video creare qualcosa basato su principi fisici reali. I primi modelli di generazione di immagini si basavano sulla combinazione di immagini diverse, portando spesso a risultati in cui parti del corpo erano scambiate o alterate.
La causa principale di questi problemi è nei set di dati usati per addestrare i modelli. Le immagini delle mani, ad esempio, sono spesso meno visibili e più piccole, rendendo difficile per l’IA generarle correttamente.
Modelli come Midjourney hanno migliorato queste capacità, ma la vera sfida è creare sistemi di intelligenza artificiale che comprendano realmente la fisica del mondo reale. LeCun sostiene che anche i sistemi di apprendimento avanzati non sono ancora capaci di generare video dettagliati come farebbe un essere vivente.
Per risolvere questo problema, i ricercatori potrebbero dover sviluppare nuove architetture che integrino motori fisici e simulazioni, migliorando la comprensione dei principi fisici. Modelli come MotionCraft, PhyDiff e MultiPhys utilizzano già simulatori di fisica e modelli 3D per ottenere migliori risultati.
Il futuro dell’IA nella creazione di contenuti visivi potrebbe risiedere non solo nel miglioramento dei modelli generativi, ma anche nello sviluppo di sistemi che possano ragionare sui concetti fisici, evitando così la creazione di immagini disturbanti e producendo risultati più coerenti e realistici.