L’ultimo modello linguistico su larga scala (LLM) di Anthropic, “Claude 3”, ha ottenuto un punteggio di 101 nel test del QI di Mensa, il punteggio più alto mai raggiunto da un modello di intelligenza artificiale (IA), superando i precedenti 85 punti di “ChatGPT”.
Maxim Thor, reporter, produttore televisivo e blogger tecnologico, ha recentemente testato 11 LLM famosi utilizzando il test del QI di Mensa e ha scoperto che Claude 3 ha ottenuto il punteggio più alto.
Per valutare meglio le capacità dei modelli AI, Lott ha convertito tutte le 35 domande del test in spiegazioni verbali, poiché alcuni modelli avevano difficoltà nella lettura delle forme. I test sono stati condotti due volte per aumentare l’accuratezza.
I risultati hanno mostrato che GPT-4 ha risposto correttamente in media 13 volte su 35 domande, ottenendo un QI stimato di 85. Claude 3, d’altra parte, ha ottenuto 101 punti, confermando le affermazioni di Anthropic.
Al terzo posto si è classificato “Claude 2” con un QI di 82, seguito dal CoPilot basato su GPT-4 con un QI di 79 e da “Gemini Pro” di Google con un QI di 77,5.
Il dibattito sull’intelligenza generale artificiale (AGI) è stato alimentato dalla scoperta di Claude 3. Tuttavia, gli esperti ritengono che raggiungere l’AGI con LLM da solo potrebbe essere difficile e potrebbe richiedere ulteriori scoperte rivoluzionarie.
L’idea di “intelligenza artificiale con un corpo” è stata suggerita come una possibile via per raggiungere l’AGI. Tuttavia, molti esperti concordano sul fatto che, se un’AGI dovesse emergere, potrebbe avvenire entro 4-5 anni.
Nvidia ha previsto che l’AGI emergerà entro cinque anni, suggerendo che l’avvento di un’intelligenza artificiale generalizzata potrebbe essere più vicino di quanto si pensasse.