GPT-4V: quando l’IA incontra l’Immagine

L’introduzione della funzionalità immagine su GPT-4 ha catturato l’attenzione degli utenti di ChatGPT nelle ultime due settimane, con la maggior parte di loro che sta già sperimentando le incredibili potenzialità di GPT-4V (Vision). Che si tratti di leggere, riconoscere immagini, rispondere a domande specifiche, scrivere codice o progettare un sito web, la multimodalità portata da GPT-4V sta diventando una vera svolta.

Questa versatilità è destinata a rivoluzionare ulteriormente il modo in cui diversi settori operano. Recentemente, i ricercatori di Microsoft hanno pubblicato un articolo sulle loro esplorazioni preliminari con GPT-4V. Questo documento si concentra sulla comprensione dei modelli multimodali di grandi dimensioni (LMM) e valuta le capacità di GPT-4V attraverso una vasta gamma di attività strutturate. L’articolo sottolinea la capacità distintiva di GPT-4V di interpretare segnali visivi sugli input delle immagini, aprendo così la strada a innovative interazioni uomo-computer, come i suggerimenti basati su riferimenti visivi.

Oltre alle funzioni di base, l’articolo elenca un’ampia gamma di potenziali utilizzi in vari settori, con particolare enfasi sul settore medico e assicurativo. Il recente aggiornamento di GPT-4 non fa che consolidarne il futuro. La sua capacità di interpretare e analizzare immagini può essere di grande aiuto nell’interpretazione di dettagli da scansioni e radiografie, rendendo la radiologia uno dei principali beneficiari.

Ad esempio, GPT-4V è stato sottoposto a una radiografia dentale e ha risposto a diverse domande. È importante notare che il chatbot ha incluso un disclaimer all’inizio e ha evitato di fornire conclusioni definitive. Inoltre, sono state effettuate prove per valutare se GPT-4V può essere utilizzato nell’ambito delle assicurazioni auto, concentrandosi sulla valutazione dei danni ai veicoli e sul riconoscimento delle informazioni del veicolo, come la targa e il modello. Tuttavia, il modello non è stato in grado di stimare il costo dei danni in modo definitivo, evidenziando alcune limitazioni.

GPT-4V ha anche migliorato le capacità di codifica, rendendo la creazione di siti web e app più accessibile. Anche la creazione di disegni o diagrammi di base da una lavagna può essere facilmente tradotta in codice. Matt Shumer, CEO di HyperWriteAI, ha addirittura condiviso un esempio di un agente ingegnere frontend alimentato da GPT-4V, dimostrando come il modello sia in grado di codificare e ottimizzare progetti basati su immagini.

Tuttavia, va notato che, nonostante i risultati impressionanti, GPT-4V non è ancora completamente privo di errori. Può commettere errori nella lettura di dettagli minuti o nel conteggio di variabili troppo simili, il che richiede un controllo incrociato prima di affidarsi completamente al modello.

In passato, Bard, il concorrente di ChatGPT, aveva superato il chatbot di OpenAI in molte aree, comprese le funzionalità multimodali come voce/immagine e navigazione web. Tuttavia, ora GPT-4 sembra aver colmato queste lacune.

Nonostante la versatilità di GPT-4V, la precisione rimane un problema, simile a Bard. Alcuni utenti hanno riscontrato risposte errate sia da GPT-4V che da Bard in situazioni che richiedevano un pensiero strategico in giochi come Pac-Man.

L’aggiunta della funzionalità multimodale arriva in un momento in cui ChatGPT aveva registrato una diminuzione degli utenti, ma con i recenti aggiornamenti e il potenziale delle nuove funzionalità, potrebbe essere in vista una rinascita. Inoltre, con OpenAI DevDay all’orizzonte e importanti annunci in arrivo, la funzione “visione” potrebbe essere solo un assaggio di ciò che ci aspetta per ChatGPT.

Infine, oltre a portare innovazioni in una vasta gamma di funzioni, GPT-4V può anche aiutarti a decifrare meme o scherzi, rendendolo una risorsa preziosa per tutti.

GPT-4V: quando l’IA incontra l’Immagine

DiFantasy

Di Fantasy

Articoli correlati

Anthropic affronta la controversia politica con i nuovi parametri di imparzialità di Claude

Svelare la scatola nera: i Circuiti Sparsi di OpenAI per l’Intelligenza Artificiale trasparente

SIMA, l’Agente AI di Google DeepMind che impara e agisce in mondi 3D aperti

Ultimi Post

Anthropic affronta la controversia politica con i nuovi parametri di imparzialità di Claude

Svelare la scatola nera: i Circuiti Sparsi di OpenAI per l’Intelligenza Artificiale trasparente

SIMA, l’Agente AI di Google DeepMind che impara e agisce in mondi 3D aperti

L’illusione del 40%: Microsoft Copilot e il divario tra la percezione del management e la realtà del lavoro quotidiano