Il 4 novembre 2024, Sam Altman, CEO di OpenAI, ha menzionato per la prima volta il modello “o2” in un post su X (precedentemente Twitter), rivelando che ha raggiunto un punteggio del 105% nel benchmark GPQA. Sebbene il post sia stato rapidamente rimosso, ha suscitato speculazioni sul fatto che “o2” sia il successore del modello “o1”, noto per le sue capacità avanzate di ragionamento.
Il GPQA (General Physics Question Answering) è un benchmark che valuta le prestazioni dei modelli di intelligenza artificiale attraverso 448 domande a scelta multipla in ambiti come biologia, fisica e chimica. La difficoltà del test è tale che anche individui con dottorati di ricerca ottengono in media un punteggio del 65%.
Modelli precedenti, come GPT-4o e Claude 3 Opus, hanno registrato rispettivamente il 53,6% e il 50,4%. Pertanto, un punteggio del 105% suggerisce che “o2” potrebbe superare significativamente le capacità dei modelli attuali, offrendo risposte di qualità superiore a quelle fornite da esperti umani.
Altman ha dichiarato che OpenAI non prevede di rilasciare GPT-5 entro la fine dell’anno, ma ha anticipato l’introduzione di nuovi modelli significativi. Considerando che “o2” ha già dimostrato prestazioni eccezionali nei benchmark, è plausibile che il suo rilascio sia imminente.
Questi sviluppi indicano progressi significativi nel campo dell’intelligenza artificiale, con modelli sempre più avanzati che si avvicinano o superano le capacità umane in compiti complessi. Tuttavia, rimangono domande sull’applicazione pratica di tali modelli e sulle implicazioni etiche del loro utilizzo.