Riprendiamo la discussione riguardante il multimodal-GPT-4. Sei mesi dopo la nostra ultima domanda, sembra che Gemini di Google abbia spinto OpenAI a considerare seriamente l’accelerazione del rilascio di GPT-4 con funzionalità multimodali. Secondo quanto riportato, Google sta per lanciare Gemini, e OpenAI è pronta a competere.
Attualmente, OpenAI sta integrando GPT-4 con funzionalità multimodali, simili a quanto sta facendo Google con Gemini. Questo modello integrato è stato nominato GPT-Vision, come riportato recentemente. Il timing sembra essere opportuno, dato che sia Gemini che GPT-Vision dovrebbero entrare in scena e potenzialmente competere nell’autunno in arrivo.
Anche se Sam Altman aveva precedentemente affermato che non ci si dovrebbe aspettare GPT-5 o GPT-4.5 nel prossimo futuro, secondo un articolo informativo, OpenAI potrebbe sviluppare un modello multimodale ancora più potente chiamato Gobi dopo GPT-Vision. A differenza di GPT-4, Gobi è stato progettato fin dall’inizio come modello multimodale.
È interessante notare che OpenAI ha deciso di trattenere temporaneamente le funzionalità multimodali non a causa di problemi di sviluppo, ma a causa di preoccupazioni legate alla privacy e alla possibilità di interpretare erroneamente le immagini, ad esempio riguardo al genere o allo stato emotivo, che potrebbero portare a risposte inappropriate.
Nel frattempo, OpenAI ha lavorato su Dall E-3, e i primi campioni diffusi da MattVidPro su YouTube suggeriscono che questo modello abbia prestazioni migliori rispetto ad altri generatori di immagini, incluso Midjourney, noto per la sua capacità di creare immagini realistiche.
In una recente intervista, Sundar Pichai, CEO di Google, ha dichiarato che con Gemini, i modelli di testo e di generazione di immagini convergeranno, il che significa che il massimo che possiamo aspettarci da Gemini è la capacità di generare testo e immagini in risposta alle richieste degli utenti.
Se OpenAI riuscirà a combinare le capacità di Dall E-3 e ChatGPT Plus, sembra probabile che possa competere con successo contro Gemini. Gemini, tuttavia, si distingue per essere il primo modello multimodale addestrato sui video di YouTube anziché solo sul testo (o, nel caso di GPT-4, testo e immagini). Inoltre, Demis Hassabis di DeepMind ha recentemente menzionato l’uso di tecniche simili ad AlphaGo per Gemini.
D’altra parte, Bard di Google ha ottenuto risultati meno convincenti e non sembra essere all’altezza di ChatGPT quando si tratta di generare testo. Pertanto, fare affidamento su Gemini per cambiare il destino di Google potrebbe essere una scommessa rischiosa.
È importante notare che il processo di lancio dei prodotti di OpenAI è diverso da quello di Google. Google, come un attore consolidato con 4,3 miliardi di clienti in tutto il mondo, è molto cauta nel lanciare nuovi prodotti, cercando di garantire che siano completamente pronti e privi di problemi.
D’altro canto, OpenAI ha lanciato prodotti in passato, anche se non erano perfetti, contando sul feedback dei consumatori per apportare le necessarie correzioni. Ad esempio, quando OpenAI ha introdotto GPT-4 inizialmente come multimodale, ha dovuto successivamente ammettere alcune limitazioni e imperfezioni nel modello.
Sundar Pichai ha condiviso opinioni simili in una recente intervista, elogiando OpenAI per aver lanciato ChatGPT in modo tempestivo, dimostrando la capacità di adattarsi al mercato e soddisfare le esigenze delle persone.
In conclusione, con Google e OpenAI impegnate in una competizione nel campo multimodale, questo autunno si preannuncia estremamente interessante.