In che modo il GPT-4 annunciato da OpenAI è diverso dal modello precedente, GPT-3.5? I media stranieri come TechCrunch e il New York Times hanno citato per primi la funzione di riconoscimento delle immagini.
Hanno sottolineato che la precisione è migliorata, la memoria (capacità di archiviazione) è migliorata, sono state aggiunte funzionalità multilingue e la personalizzazione è diventata possibile. C’era anche una valutazione secondo cui è diventato più bravo nelle battute.
■ Multimodale
Il Large Language Model (LLM) di OpenAI, GPT-4, riconosce le immagini, a differenza dei modelli precedenti che riconoscevano solo il testo. Se comandi “Dimmi cosa puoi cucinare con gli ingredienti mostrati in questa immagine” insieme a un’immagine dell’interno del frigorifero, consiglia diversi piatti.
OpenAI ha definito il nuovo modello come multimodale in base all’aggiunta di questa funzione di riconoscimento delle immagini. Multimodale si riferisce alla capacità di rispondere a più modalità come testo, immagine, audio e video.
Tuttavia, GPT-4 riconosce solo le immagini e non può crearne di nuove. Rispondi solo tramite testo. In risposta all’immagine di un frigorifero e alla richiesta di consigliare un piatto, non riesce a creare immagini di possibili piatti.
Pertanto, non è un modello multimodale nel senso pieno di input e output multimodali. Sebbene sia stato inferiore alle aspettative, è una notevole evoluzione per i modelli linguistici riconoscere le immagini. GPT-4 risponde solo quando lo inserisci come richiesta con una combinazione di testo e immagini.
OpenAI ha dichiarato in un blog che sta attualmente ricercando un modo per inserire i prompt solo come immagini e non è aperto al pubblico. Inoltre, è stato introdotto che questa ricerca è condotta con una società che ha sviluppato “Be My Eye”, un’app di intelligenza artificiale (AI) per i non vedenti.
■ Precisione migliorata
OpenAI afferma che il nuovo modello riduce significativamente la possibilità di fornire risposte sbagliate o dannose. “Era l’82% in meno di probabilità di rispondere alle richieste di contenuti non consentiti e il 40% in più di probabilità di dare una risposta fattuale rispetto a GPT-3.5 nelle valutazioni interne”, ha affermato il blog.
Viene spiegato che a seguito dell’apprendimento di messaggi dannosi lasciati dagli utenti della serie GPT negli ultimi 1-2 anni, le risposte che si discostano dalle linee guida dello sviluppatore sono state ridotte.
Insieme a questo, OpenAI ha affermato che il nuovo modello ha migliorato la sua capacità argomentativa di trarre conclusioni razionali dalle sue premesse e le sue prestazioni in vari test sono migliorate in modo significativo rispetto ai modelli precedenti.
■ Memoria migliorata
GPT-3.5 conversazioni memorizzate (input e output) con utenti fino a 8.000 parole e fino a 4-5 pagine di un libro. Il nuovo modello aumenta questa capacità di archiviazione a 64.000 parole o 50 pagine.
ChatGPT, un’interfaccia di chat che interagisce con GPT, significa che se una conversazione supera le 4 o 5 pagine, non puoi ricordare il contenuto precedente, ma ora puoi ricordare fino a 50 pagine.
■ Funzione multilingue
I prompt possono essere inseriti in 26 lingue, incluso il coreano. Anche l’accuratezza della traduzione dall’inglese in altre lingue è migliorata. Nel caso del coreano, la precisione è di circa il 77%, ha affermato OpenAI nel suo blog.
■ Personalizzabile
Gli utenti hanno più controllo sul nuovo modello. Quando si utilizza GPT-4, ora è possibile “personalizzare” tramite “messaggio di sistema”. OpenAI ha spiegato che “la manovrabilità è aumentata”. Utilizzando questa funzione di messaggio di sistema, la chat chiacchierona GPT può essere modificata in uno stile diverso.
Ad esempio, come messaggio di sistema “Tu (GPT-4) sei un insegnante socratico”. Gli studenti sono indirizzati a rispondere concentrandosi sulla coltivazione della loro capacità di pensiero. Quindi, il chatbot che interagisce con GPT-4 chiede: “C’è un modo per sommare le due equazioni?” e incoraggia gli utenti a pensare.