Durante l’evento Spring Updates, Mira Murati, Chief Technology Officer di OpenAI, ha annunciato l’introduzione di GPT-4o, un nuovo modello di intelligenza artificiale multimodale. Questo modello sarà presto disponibile per tutti gli utenti gratuiti di ChatGPT e include una nuova app desktop per MacOS, con una versione per Windows prevista in seguito. GPT-4o è progettato per elaborare voce, testo e immagini, e presto potrà analizzare video in tempo reale attraverso le app per smartphone ChatGPT, anche se questa funzione non è ancora pubblicamente accessibile.
Murati ha spiegato che GPT-4o può rispondere in tempo reale anche tramite audio, rilevare emozioni e adattare la sua voce per esprimere diverse emozioni, simile a quanto fatto da startup concorrenti come AI Hume. Tuttavia, OpenAI non ha piani di rendere GPT-4o o altri suoi modelli di intelligenza artificiale open source, il che limita gli utenti a testare le funzionalità del modello solo attraverso il sito web di OpenAI e le relative app e API, senza poter accedere direttamente ai dati interni del modello.
GPT-4o offre capacità significativamente avanzate rispetto al precedente modello GPT-3.5, consentendo agli utenti gratuiti di accedere a funzioni come navigazione web, analisi dei dati, creazione di grafici e persino una memoria personalizzabile per salvare informazioni su preferenze personali. Queste novità sono descritte nel blog di OpenAI come un grande passo avanti nella comprensione e discussione delle immagini.
Attualmente, GPT-4o è distribuito prioritariamente agli abbonati di ChatGPT Plus e Team, con i piani di estendere l’accesso agli utenti Enterprise. OpenAI ha inoltre iniziato a implementare limiti di utilizzo superiori per questi abbonati rispetto agli utenti gratuiti.
OpenAI ha anche introdotto una nuova app desktop ChatGPT per MacOS, disponibile inizialmente per gli utenti Plus e pianificata per essere resa disponibile più ampiamente nelle prossime settimane. Una versione per Windows è prevista entro la fine dell’anno.
L’evento si è concluso in soli 26 minuti, un tempo breve per gli standard degli eventi tecnologici, con alcune demo dal vivo che hanno mostrato interazioni imbarazzanti dove i relatori hanno dovuto interrompere e correggere le risposte vocali di ChatGPT. Sarà interessante osservare come questa nuova tecnologia verrà accolta dal pubblico e se offrirà un’esperienza utente migliorata, più potente e naturale rispetto ai modelli precedenti.