I modelli AI multimodali faticano ancora nelle attività manuali complesse come il montaggio dei mobili

Un recente confronto tra esseri umani e sistemi AI multimodali ha evidenziato un limite ancora molto marcato dei modelli generativi quando devono interpretare attività fisiche reali e sequenziali, come il montaggio di mobili IKEA attraverso video tutorial. I test hanno coinvolto diversi modelli avanzati, inclusi sistemi di OpenAI e Google, valutando la loro capacità di comprendere correttamente componenti, strumenti, connessioni meccaniche e ordine operativo osservando filmati di assemblaggio.

I risultati mostrano che molti modelli AI non riescono a ricostruire accuratamente la logica spaziale dell’assemblaggio. In numerosi casi vengono confuse le parti, ignorati passaggi fondamentali oppure interpretate in modo errato le relazioni fisiche tra gli elementi strutturali del mobile. Uno degli aspetti più interessanti emersi dai test è che i modelli tendono spesso a produrre risposte linguisticamente convincenti ma scollegate dal reale contenuto visivo del video, segnale di una comprensione ancora superficiale delle dinamiche fisiche e tridimensionali.

Questo tipo di scenario rappresenta uno dei problemi storicamente più difficili per l’intelligenza artificiale: combinare percezione visiva, ragionamento spaziale, memoria procedurale e manipolazione fisica coerente. Compiti apparentemente semplici per un essere umano, come capire quale vite utilizzare o prevedere l’orientamento corretto di un pannello, richiedono in realtà una grande quantità di conoscenza implicita sul mondo fisico. È il principio noto come “paradosso di Moravec”, secondo cui le capacità sensorimotorie naturali degli esseri umani risultano molto più difficili da replicare rispetto al ragionamento astratto o linguistico.

Nel settore della robotica il montaggio di mobili IKEA viene utilizzato da anni come benchmark operativo proprio perché costringe i sistemi AI a integrare visione artificiale, pianificazione motoria e comprensione geometrica. Alcuni laboratori sono riusciti a costruire robot capaci di completare l’assemblaggio autonomo di sedie o tavoli, ma quasi sempre attraverso workflow altamente controllati, movimenti lenti e sequenze pre-programmate. Anche nei casi più avanzati, il sistema necessita ancora di una forte struttura algoritmica e di condizioni ambientali molto più prevedibili rispetto a quelle gestite naturalmente da una persona.

Il confronto mette quindi in evidenza una distinzione sempre più importante nel panorama AI attuale: eccellere nella generazione di testo o nella conversazione non significa necessariamente comprendere il mondo fisico. Le difficoltà osservate nel montaggio di mobili mostrano come l’intelligenza artificiale moderna sia ancora lontana dall’avere una comprensione realmente “embodied”, cioè integrata con percezione, spazio e interazione materiale.

I modelli AI multimodali faticano ancora nelle attività manuali complesse come il montaggio dei mobili

DiFantasy

Di Fantasy

Articoli correlati

SafeDrive porta l’intelligenza artificiale nel controllo di smartphone, cinture e documenti dei veicoli

Gemini Nano 4 debutta sui nuovi pieghevoli Samsung con l’AI eseguita direttamente sul dispositivo

OpenAI avrebbe scoperto dopo una settimana che un proprio agente AI aveva violato Hugging Face

Ultimi Post

SafeDrive porta l’intelligenza artificiale nel controllo di smartphone, cinture e documenti dei veicoli

Gemini Nano 4 debutta sui nuovi pieghevoli Samsung con l’AI eseguita direttamente sul dispositivo

OpenAI avrebbe scoperto dopo una settimana che un proprio agente AI aveva violato Hugging Face

Claude Record a Skill trasforma una registrazione dello schermo in una procedura automatizzabile