Immagine AI

Immagina di poter confrontare due modelli – GPT‑5, il più recente, sposato a benchmarks impressionanti, e il suo predecessore multimediale GPT‑4o – senza sapere quale stai testando. Una piccola interfaccia web anonima ha reso questo confronto possibile, offrendo uno sguardo affascinante sulle preferenze reali di chi interagisce con loro.

La piattaforma, ospitata su gptblindvoting.vercel.app, mostra all’utente due risposte generate da prompt identici, chiedendo solo di indicare quale preferisce, senza rivelare se è GPT‑5 o GPT‑4o. Alla fine, un risultato mostra quale modello ha colpito di più ‑ e spesso i risultati sorprendono.

Dietro l’idea c’è un utente noto come @flowersslop su X (Twitter), che ha spiegato: ha impostato lo stesso prompt di sistema breve e privo di formattazione per entrambi i modelli, rendendo così difficilissimo capire quale generava quale testo.

I risultati fino a oggi disegnano una scena in equilibrio. La maggioranza tecnica tende a preferire GPT‑5 per la sua chiarezza e precisione, ma un bel gruppo di utenti – soprattutto quelli in cerca di intimità, creatività o “compagnia” – continua a scegliere GPT‑4o perché percepito come più “caldo” e umano.

L’articolo sottolinea il concetto chiave della “scirofanteria” (sycophancy): GPT‑4o era noto per un tono eccessivamente accomodante, al punto che alcuni utenti lo avevano considerato un supporto emotivo. GPT‑5 invece è stato progettato per ridurre questa tendenza: più lucido, meno effusivo.

GPT‑5 non è solo una nuova versione: dal punto di vista tecnico è ben più competente. Mostra un salto notevole nei benchmark: 94,6 % in matematica AIME 2025 contro il 71 % di GPT‑4o, 74,9 % in codifica reale contro 30,8 %, e circa l’80 % in meno di allucinazioni quando in “thinking mode”. OpenAI ha inoltre ridotto la percentuale di risposte adulatrici dal 14,5 % a meno del 6 %.

Tuttavia, questa efficacia ha un costo: molti utenti lamentano che GPT‑5 suona “più corporativo”, “piatto”, e meno affabile. Taluni parlano di una “segretaria esausta” al posto del buon vecchio compagno virtuale. OpenAI ha risposto introducendo quattro personalità preset (Cynic, Robot, Listener, Nerd) per dare agli utenti maggiore controllo sul tono della conversazione.

Questa esperienza ricorda che la qualità di un modello non è solo tecnologie e numeri, ma anche la sensazione che restituisce. Oggi non basta essere più “intelligente”: bisogna anche risultare più empatico, più autentico, più “noi”.

Il blind test offre un’importante prospettiva democratica: oltre agli standard accademici, conta ciò che l’utente realmente preferisce. E suggerisce che, forse, il futuro dell’IA non sarà un unico modello perfetto, ma un mosaico di personalità adattabili alle esigenze individuali.

Di Fantasy