Il mondo dell’intelligenza artificiale (IA) ha recentemente accolto un nuovo benchmark, soprannominato “Humanity’s Last Exam” (HLE), progettato per testare i limiti degli attuali modelli avanzati.

Ideato da Dan Hendrycks, direttore del Centro di Sicurezza AI, in collaborazione con esperti di 50 Paesi, l’HLE è considerato il più impegnativo mai creato. Include 3.000 domande che spaziano dalla filosofia alla ingegneria spaziale.

Lo scopo è spingere i modelli oltre i confini tradizionali, richiedendo competenze di livello esperto. Nonostante i progressi di modelli come GPT-4, i risultati del test rivelano quanto resti ancora da fare, poiché nessun modello ha superato il 10% di risposte corrette.

Di Fantasy