Un recente confronto tra esseri umani e sistemi AI multimodali ha evidenziato un limite ancora molto marcato dei modelli generativi quando devono interpretare attività fisiche reali e sequenziali, come il montaggio di mobili IKEA attraverso video tutorial. I test hanno coinvolto diversi modelli avanzati, inclusi sistemi di OpenAI e Google, valutando la loro capacità di comprendere correttamente componenti, strumenti, connessioni meccaniche e ordine operativo osservando filmati di assemblaggio.
I risultati mostrano che molti modelli AI non riescono a ricostruire accuratamente la logica spaziale dell’assemblaggio. In numerosi casi vengono confuse le parti, ignorati passaggi fondamentali oppure interpretate in modo errato le relazioni fisiche tra gli elementi strutturali del mobile. Uno degli aspetti più interessanti emersi dai test è che i modelli tendono spesso a produrre risposte linguisticamente convincenti ma scollegate dal reale contenuto visivo del video, segnale di una comprensione ancora superficiale delle dinamiche fisiche e tridimensionali.
Questo tipo di scenario rappresenta uno dei problemi storicamente più difficili per l’intelligenza artificiale: combinare percezione visiva, ragionamento spaziale, memoria procedurale e manipolazione fisica coerente. Compiti apparentemente semplici per un essere umano, come capire quale vite utilizzare o prevedere l’orientamento corretto di un pannello, richiedono in realtà una grande quantità di conoscenza implicita sul mondo fisico. È il principio noto come “paradosso di Moravec”, secondo cui le capacità sensorimotorie naturali degli esseri umani risultano molto più difficili da replicare rispetto al ragionamento astratto o linguistico.
Nel settore della robotica il montaggio di mobili IKEA viene utilizzato da anni come benchmark operativo proprio perché costringe i sistemi AI a integrare visione artificiale, pianificazione motoria e comprensione geometrica. Alcuni laboratori sono riusciti a costruire robot capaci di completare l’assemblaggio autonomo di sedie o tavoli, ma quasi sempre attraverso workflow altamente controllati, movimenti lenti e sequenze pre-programmate. Anche nei casi più avanzati, il sistema necessita ancora di una forte struttura algoritmica e di condizioni ambientali molto più prevedibili rispetto a quelle gestite naturalmente da una persona.
Il confronto mette quindi in evidenza una distinzione sempre più importante nel panorama AI attuale: eccellere nella generazione di testo o nella conversazione non significa necessariamente comprendere il mondo fisico. Le difficoltà osservate nel montaggio di mobili mostrano come l’intelligenza artificiale moderna sia ancora lontana dall’avere una comprensione realmente “embodied”, cioè integrata con percezione, spazio e interazione materiale.
