OpenAI ha recentemente annunciato un aggiornamento significativo per i suoi modelli di inferenza ‘o1’ e ‘o3-Mini’, introducendo il supporto per l’upload di immagini e file. Questa innovazione segna un passo importante verso l’integrazione di capacità multimodali nei modelli di intelligenza artificiale, consentendo agli utenti di interagire con i modelli attraverso diversi tipi di input.
Con l’introduzione del supporto per immagini e file, i modelli ‘o1’ e ‘o3-Mini’ possono ora elaborare e rispondere a input visivi e documentali, ampliando notevolmente le loro applicazioni pratiche. Questa evoluzione permette agli utenti di caricare file Excel, immagini o grafici, e ricevere analisi o risposte contestualizzate, rendendo l’interazione con l’IA più versatile e intuitiva.
Questa funzionalità è stata sviluppata in risposta alle richieste degli utenti, che hanno espresso la necessità di interagire con i modelli di IA utilizzando una varietà di formati. La possibilità di caricare diversi tipi di file amplia le potenzialità dei modelli, rendendoli strumenti più efficaci per una vasta gamma di applicazioni, dalla gestione dei dati all’analisi delle immagini.
Nonostante l’introduzione di queste funzionalità, alcuni utenti hanno notato che le prestazioni potrebbero non essere ancora ottimali. OpenAI è consapevole di queste osservazioni e sta lavorando per ottimizzare ulteriormente le capacità multimodali dei suoi modelli. Inoltre, si prevede che la versione ‘o1-Pro’ non includa ancora queste funzionalità, suggerendo che gli aggiornamenti potrebbero essere graduali e mirati a specifici modelli.
OpenAI non è l’unica azienda a sviluppare modelli di IA con capacità multimodali. Recentemente, Google ha lanciato ‘Gemini 2.0 Pro’ e ‘Gemini 2.0 Flash’, entrambi dotati di funzionalità multimodali avanzate. In particolare, la versione Pro offre un contesto di 200 milioni di token, permettendo l’elaborazione di testi molto lunghi in un’unica interazione. Tuttavia, i modelli ‘o1’ e ‘o3-Mini’ di OpenAI presentano un contesto di 32.000 a 128.000 token, indicando che c’è ancora spazio per miglioramenti in termini di capacità di elaborazione contestuale.