I ricercatori di Meta AI hanno presentato OpenEQA, un nuovo set di dati open source che mira a valutare la capacità di un sistema di intelligenza artificiale di rispondere a domande sul mondo reale. Questo set di dati comprende oltre 1.600 domande relative a vari ambienti reali, come case e uffici, e si concentra su sette categorie di domande che testano varie abilità dell’intelligenza artificiale, come il riconoscimento degli oggetti, il ragionamento spaziale e la comprensione del buon senso.
La visione dietro OpenEQA è quella di sviluppare un’intelligenza artificiale in grado di interagire con il mondo reale e rispondere a domande in linguaggio naturale. Anche modelli avanzati come GPT-4V hanno trovato sfide nel superare le prestazioni umane su questo set di dati.
Il progetto OpenEQA combina diverse aree dell’intelligenza artificiale, inclusa la visione artificiale, l’elaborazione del linguaggio naturale e la robotica, con l’obiettivo di sviluppare agenti artificiali in grado di percepire e interagire con il mondo circostante.
I ricercatori vedono diverse applicazioni per questa “intelligenza incarnata”, tra cui assistenti IA per la realtà aumentata e robot mobili che possono esplorare autonomamente gli ambienti per trovare informazioni.
Per creare OpenEQA, i ricercatori hanno raccolto dati video e scansioni 3D di ambienti reali e hanno chiesto agli esseri umani di generare domande basate su questi dati visivi. Le domande coprono una vasta gamma di situazioni e richiedono un’ampia comprensione del contesto e del buon senso per essere risolte correttamente.
Ogni domanda ha multiple risposte umane per tener conto della varietà di possibili risposte. Le prestazioni degli agenti di intelligenza artificiale vengono valutate confrontando le risposte generate con quelle umane.