Il recente rilascio del Gemini Pro di Google ha suscitato confronti con il GPT-4 di OpenAI, ma sembra non aver raggiunto le aspettative iniziali. Il dibattito si concentra su quale dei due, Gemini o GPT-4V, sia superiore. Nonostante molte opinioni favoriscano GPT-4V, è importante notare che Gemini Pro segue da vicino.
Un documento di ricerca da Hong Kong e Shanghai, intitolato “Gemini Pro vs GPT-4V: A Preliminary Comparison and Combination of Vision-Language Models Through Qualitative Cases”, ha esaminato le capacità visive di entrambi. Gemini ha mostrato eccellenza in specifici compiti di ragionamento, come il ragionamento logico e l’accuratezza dei fatti, rendendolo adatto per compiti che richiedono analisi e comprensione approfondite. Questo suggerisce che la superiorità di GPT-4V potrebbe non essere così definita.
Lo studio ha rivelato che GPT-4V eccelle nella precisione e concisione delle risposte, con una forte comprensione contestuale. Al contrario, Gemini Pro si è distinto nel fornire risposte dettagliate, arricchite da immagini e collegamenti pertinenti, mostrando la sua abilità nella generazione di contenuti ricchi. Entrambi i modelli hanno dimostrato competenza in applicazioni industriali, con differenze sfumate nel loro approccio.
Tuttavia, Gemini Pro presenta alcune limitazioni, come l’elaborazione di una singola immagine per volta, a differenza di GPT-4V che gestisce più immagini, migliorando la memoria. Entrambi sono abili nel riconoscimento delle immagini, ma GPT-4V si distingue nella localizzazione di oggetti reali e astratti.
Entrambi eccellono nell’estrazione del testo dalle immagini, con Gemini superiore nella lettura delle informazioni da tabelle. In termini di comprensione del buon senso e di espressione emotiva, entrambi i modelli sono competenti, sebbene Gemini mostri lievi svantaggi in alcuni test di intelligenza.
La scelta tra GPT-4 e Gemini Pro dipende dalle specifiche esigenze del compito. GPT-4 è preferibile per attività multimodali, mentre Gemini Pro brilla in compiti legati al codice che richiedono efficienza computazionale.
Una dimostrazione video di Gemini Ultra ha destato ammirazione iniziale, ma si è poi rivelata essere una messa in scena, con una descrizione che indicava la riduzione della latenza e l’abbreviazione degli output per brevità. Questo solleva dubbi sulle reali prestazioni di Gemini Pro.
Nell’analisi complessiva, Gemini Pro e GPT-4V condividono punti di forza simili, con Gemini che eccelle in attività di codice e GPT-4 in applicazioni multimodali. Tuttavia, entrambi i modelli presentano limitazioni come la consapevolezza spaziale limitata e l’OCR inaffidabile. Mentre si attendono ulteriori sviluppi, la scelta tra i due dipenderà dalle esigenze specifiche, con Gemini Pro che potrebbe essere preferito per la sua praticità e efficienza.