Sam Altman, CEO di OpenAI, ha annunciato tramite il social network X (precedentemente noto come Twitter) il rilascio di un aggiornamento significativo per il modello GPT-4o, attualmente alla base di ChatGPT. Questo aggiornamento ha permesso a GPT-4o di riconquistare, dopo quattro mesi, la prima posizione nei benchmark di preferenza umana.

Uno degli aspetti chiave di questo aggiornamento è l’estensione del cutoff dei dati di addestramento, ora aggiornati fino a giugno 2024. Questo ampliamento consente a GPT-4o di fornire risposte più aggiornate su tendenze culturali, sociali e sulle ricerche più recenti, offrendo agli utenti informazioni più pertinenti e tempestive.

L’aggiornamento ha anche rafforzato la capacità di GPT-4o di comprendere e analizzare input visivi. Attraverso miglioramenti in benchmark multimodali come MMMU e MathVista, il modello è ora più abile nell’interpretare relazioni spaziali, analizzare diagrammi complessi e comprendere grafici e tabelle. Questa evoluzione rende GPT-4o uno strumento più versatile per applicazioni che richiedono l’integrazione di dati visivi e testuali.

Le competenze di GPT-4o in ambiti come matematica, scienze e programmazione hanno subito un notevole miglioramento. I punteggi in benchmark come GPQA e MATH sono aumentati, indicando una maggiore precisione e affidabilità nelle risposte a problemi complessi in questi settori. Inoltre, le capacità di comprensione linguistica, l’ampiezza delle conoscenze e le abilità di ragionamento del modello sono state potenziate, come evidenziato dai risultati superiori nel benchmark MMLU.

Un’aggiunta interessante è l’uso proattivo degli emoji nelle conversazioni. Questa funzionalità mira a rendere le interazioni più coinvolgenti e a facilitare una comunicazione più espressiva tra l’IA e gli utenti.

Le reazioni all’aggiornamento sono state ampiamente positive. Sully Omar, CEO di Autogrid, ha elogiato le nuove capacità di scrittura di GPT-4o, definendole “incredibilmente raffinate”. Alcuni utenti hanno persino ipotizzato che le prestazioni fossero così avanzate da sembrare quelle di un ipotetico GPT-4.5.

Nel benchmark IM Arena, che classifica i modelli in base alle preferenze umane, GPT-4o ha rapidamente raggiunto la vetta, condividendo il primo posto con i modelli “Gemini 2.0 Flash Thinking” e “Gemini 2.0 Pro” di Google. In particolare, GPT-4o ha eccelso in categorie come codifica, scrittura creativa, interpretazione delle istruzioni, gestione di query lunghe e conversazioni multi-turno. Tuttavia, nel dominio matematico, il modello si è posizionato al sesto posto, indicando margini di miglioramento in questo settore specifico.

Di Fantasy