L’organizzazione no-profit ARC Prize, dedicata alla valutazione dell’efficacia dei modelli di intelligenza artificiale nel dimostrare capacità simili a quelle umane, ha recentemente annunciato il lancio del benchmark ARC-AGI-2. Questo nuovo standard rappresenta l’evoluzione del precedente ARC-AGI, introducendo sfide ancora più complesse per i modelli di IA.

Il benchmark ARC-AGI-2 è progettato per testare i modelli di IA su compiti che risultano relativamente semplici per gli esseri umani, ma che si rivelano ostici per i sistemi artificiali. A differenza del suo predecessore, ARC-AGI-2 non si limita a valutare le prestazioni, ma considera anche l’efficienza, misurando il costo per compito eseguito. I test proposti richiedono ai modelli di interpretare simboli al di là dei loro schemi visivi, applicare simultaneamente regole interconnesse e adattare diverse regole in base al contesto.

I risultati ottenuti dai modelli di IA nel benchmark ARC-AGI-2 sono stati sorprendenti. I modelli privi di capacità di ragionamento, definiti “Pure LLMs” (Large Language Models puri), hanno registrato un punteggio dello 0%. Altri modelli di ragionamento pubblicamente disponibili hanno ottenuto percentuali a una cifra, inferiori al 4%. In netto contrasto, un gruppo di esseri umani sottoposto agli stessi test ha raggiunto un punteggio perfetto del 100%.

Un caso particolare è rappresentato dal modello di ragionamento o3 di OpenAI, non ancora rilasciato pubblicamente, che ha ottenuto il punteggio più alto con il 4,0%. Tuttavia, è stato reso noto che questo modello non verrà distribuito come entità autonoma, ma le sue capacità di ragionamento saranno integrate in un modello ibrido GPT-5.

Questi risultati evidenziano una significativa lacuna tra le capacità attuali dei modelli di IA e l’intelligenza generale umana. Sebbene l’IA abbia raggiunto livelli superumani in domini specifici, come il gioco del Go o il riconoscimento di immagini, queste competenze rimangono limitate a contesti ristretti. La “human-AI gap” sottolinea ciò che manca per raggiungere un’intelligenza generale: la capacità di acquisire nuove abilità in modo altamente efficiente.

Di Fantasy