Nonostante i notevoli progressi compiuti dall’intelligenza artificiale (IA) in vari ambiti, essa continua a presentare limiti significativi nella comprensione dei segnali sociali umani, come i gesti e le interazioni non verbali. Questo gap rappresenta una sfida cruciale per l’integrazione dell’IA in contesti reali, come la guida autonoma e l’assistenza agli anziani.
Un recente studio condotto dai ricercatori della Johns Hopkins University, presentato all’International Conference on Learning Representations (ICLR) 2025, ha evidenziato come i modelli di IA attuali non riescano a interpretare accuratamente le dinamiche sociali in scenari dinamici. I ricercatori hanno confrontato le valutazioni di oltre 350 modelli di IA con quelle di 1.910 partecipanti umani, chiedendo loro di analizzare brevi videoclip di tre secondi che mostravano interazioni tra individui. Mentre gli esseri umani mostravano una notevole coerenza nelle loro valutazioni, i modelli di IA, sia linguistici che visivi, mostravano una comprensione limitata e incoerente delle interazioni sociali rappresentate nei video.
Questo studio evidenzia una differenza fondamentale tra la percezione umana e quella dell’IA: mentre gli esseri umani sono naturalmente predisposti a riconoscere e interpretare segnali sociali, come la postura, la distanza e l’espressione facciale, i modelli di IA spesso mancano di questa sensibilità contestuale. Le architetture attuali dell’IA, infatti, sono principalmente progettate per elaborare immagini statiche e non sono ottimizzate per comprendere le dinamiche sociali in scenari in movimento.
Questa limitazione ha implicazioni significative per applicazioni pratiche dell’IA. Ad esempio, nei veicoli a guida autonoma, è essenziale che il sistema comprenda le intenzioni dei pedoni e degli altri conducenti, come un pedone che si prepara ad attraversare la strada o un altro veicolo che cambia corsia. Allo stesso modo, nei robot assistivi destinati alla cura degli anziani, è fondamentale che l’IA possa interpretare segnali non verbali per rispondere adeguatamente alle esigenze degli utenti.
Per affrontare queste sfide, è necessario sviluppare modelli di IA che integrino una comprensione più profonda delle interazioni sociali. Ciò implica l’adozione di approcci che combinino l’elaborazione multimodale, includendo dati visivi, uditivi e contestuali, e l’incorporazione di conoscenze provenienti dalle scienze cognitive e neuroscientifiche. Solo attraverso questi sviluppi sarà possibile creare sistemi di IA che interagiscano in modo efficace e sicuro con gli esseri umani in ambienti complessi e dinamici.