Un nuovo benchmark chiamato GAIA è stato creato per valutare se i chatbot, come ChatGPT, possono mostrare ragionamento e competenza umana nelle attività quotidiane. Sviluppato da Meta, Hugging Face, AutoGPT e GenAI, GAIA pone domande del mondo reale che richiedono abilità come il ragionamento, la gestione multimodale, la navigazione web e l’uso generale degli strumenti.

Le domande GAIA sono semplici per gli esseri umani ma impegnative per le IA avanzate. Testato su umani e GPT-4, gli umani hanno ottenuto un punteggio del 92%, mentre GPT-4 con plugin ha raggiunto solo il 15%. Questa differenza di prestazioni sottolinea la discrepanza tra le IA e gli esseri umani, specialmente in compiti che richiedono competenze professionali.

I ricercatori suggeriscono che i benchmark dovrebbero mirare a compiti che dimostrino robustezza simile a quella umana, piuttosto che concentrarsi su compiti difficili per gli esseri umani. GAIA ha generato 466 domande con risposte chiare, di cui 300 sono conservate privatamente per una classifica pubblica, e 166 sono rilasciate come set di sviluppo.

Secondo Grégoire Mialon di Meta AI, risolvere GAIA sarebbe una pietra miliare nell’IA. Attualmente, GPT-4 con plugin selezionati manualmente ha il punteggio più alto in GAIA, con una precisione del 30%. Un sistema in grado di risolvere GAIA potrebbe essere considerato un’intelligenza artificiale generale (AGI) entro un lasso di tempo ragionevole.

GAIA critica la pratica comune di testare le IA su compiti complessi e si concentra su domande quotidiane, come dettagli sull’Eurovision Song Contest o il numero di immagini in un articolo di Wikipedia.

I ricercatori ritengono che l’AGI dipenda dalla capacità di un sistema di mostrare robustezza simile a quella umana. GAIA indica una nuova direzione nella ricerca sull’IA, spostando il focus dalle competenze specializzate alle abilità umane quotidiane. Se i sistemi futuri riusciranno a dimostrare senso comune e adattabilità misurati da GAIA, potrebbero raggiungere un AGI pratico, influenzando la diffusione di assistenti, servizi e prodotti basati sull’IA.

Tuttavia, i chatbot attuali devono ancora perfezionarsi per superare GAIA, mostrando i limiti nel ragionamento e nella gestione delle situazioni reali. I risultati della sfida GAIA mostreranno progressi nell’IA, ma anche riflessioni su come l’IA può essere modellata a beneficio dell’umanità, enfatizzando valori come empatia, creatività e giudizio etico.

Di Fantasy