A marzo di quest’anno, l’atteso rilascio di GPT-4 ha portato con sé grandi promesse di capacità multimodali. Tuttavia, inizialmente, la multimodalità sembrava essere solo una prospettiva. Ora, quasi sei mesi dopo, OpenAI ha lanciato una serie di aggiornamenti la scorsa settimana, tra cui la caratteristica più notevole: la capacità di immagine e voce, che rende GPT-4 veramente multimodale e introduce finalmente la funzionalità “Visione”.
Come dimostrato da Greg Brockman, co-fondatore di OpenAI, nel video di presentazione delle funzionalità di GPT-4 all’inizio dell’anno, le diverse applicazioni di GPT-4 Vision sono state testate e i risultati sono stati sorprendenti. Ecco alcune delle incredibili funzionalità di GPT-4 Vision:
Identificazione degli oggetti GPT-4 è in grado di identificare correttamente gli oggetti nelle immagini, che si tratti di piante, animali, personaggi o qualsiasi altro oggetto casuale. Inoltre, può generare dettagli descrittivi sugli oggetti. Nei seguenti screenshot, ChatGPT ha riconosciuto correttamente la pianta principale senza richieste descrittive e addirittura il personaggio “Waldo”.
Trascrizione del testo Inserendo un’immagine contenente testo in ChatGPT Plus, il modello può trascrivere il contenuto dall’immagine. Come mostrato nello screenshot seguente, è in grado di decifrare la scrittura medievale presente in un manoscritto del filosofo e scrittore Robert Boyle.
Decodifica dei dati Il modello può facilmente leggere grafici, diagrammi o qualsiasi altro tipo di dati e dedurre risultati basati su di essi. Un esempio è mostrato nello screenshot di un grafico a barre che illustra le prestazioni di due modelli in vari concorsi.
Elaborazione di più condizioni Il modello è in grado di comprendere ed elaborare immagini con condizioni multiple. Ad esempio, nell’immagine seguente ha analizzato una serie di istruzioni per arrivare a una risposta.
Assistenza didattica GPT-4 può fungere da insegnante virtuale, consentendo agli utenti di conversare con il chatbot per comprendere argomenti in varie materie. Nel tweet seguente, un diagramma è stato spiegato in modo dettagliato seguendo le istruzioni fornite.
Codifica avanzata Con l’interprete di codice ChatGPT già disponibile, GPT-4 Vision porta le capacità di codifica a un livello superiore. Caricando semplicemente un’immagine, è possibile eseguire una vasta gamma di funzioni legate alla codifica.
Migliore comprensione della progettazione Il chatbot dimostra una notevole abilità nel riconoscere vari progetti architettonici e può persino suggerire modifiche in base alle istruzioni personalizzate fornite dagli utenti.
Questi sviluppi significativi stanno aprendo nuove opportunità nell’ambito dell’IA multimodale e delle sue applicazioni in vari settori.