Nonostante i progressi significativi nel campo dell’intelligenza artificiale, i modelli linguistici multimodali (LMM) di ultima generazione, come GPT-4 di OpenAI e Claude 3 Opus di Anthropic, mostrano ancora limitazioni nella comprensione e rappresentazione accurata del mondo reale. Uno studio recente condotto da ricercatori del MIT, dell’Università di Harvard e della Cornell University ha evidenziato queste carenze, sottolineando la necessità di sviluppare modelli più coerenti e affidabili.
I ricercatori hanno valutato le capacità degli LMM nel fornire indicazioni stradali dettagliate all’interno della città di New York. Sebbene i modelli siano stati in grado di generare indicazioni generalmente accurate, sono emersi errori significativi, come l’inclusione di strade inesistenti o percorsi non validi. Inoltre, quando sono state introdotte variabili impreviste, come deviazioni o chiusure stradali, la precisione dei modelli è diminuita drasticamente, evidenziando una comprensione limitata delle dinamiche del mondo reale.
Per analizzare la coerenza dei modelli, gli studiosi hanno utilizzato l’automa a stati finiti deterministico (DFA), uno strumento che rappresenta sequenze di stati e transizioni, come le regole di un gioco o le indicazioni stradali. Attraverso l’uso del gioco Othello e delle strade di New York come casi di studio, hanno valutato la capacità dei modelli di mantenere una rappresentazione coerente e accurata del contesto. I risultati hanno mostrato che, sebbene i modelli potessero generare mosse valide nel gioco e indicazioni stradali plausibili, mancavano di una comprensione profonda e coerente delle regole sottostanti e della geografia reale.
Questi risultati suggeriscono che, nonostante le impressionanti capacità degli LMM, esistono ancora sfide significative nella loro applicazione in contesti che richiedono una comprensione dettagliata e dinamica del mondo reale. Per migliorare l’affidabilità e la coerenza di questi modelli, sarà fondamentale sviluppare approcci che consentano una rappresentazione più accurata e adattabile delle informazioni del mondo reale. Questo è particolarmente rilevante per applicazioni critiche come la navigazione autonoma, dove una comprensione errata dell’ambiente può avere conseguenze gravi.