Immagine AI

C’è qualcosa di quasi poetico nel fatto che una delle sfide più banali per gli esseri umani — dire che ora è guardando un orologio analogico — si trasformi in una montagna insormontabile per le intelligenze artificiali più avanzate. Ed è proprio questo che mette in luce lo studio “ClockBench”, un lavoro recente che ha messo alla prova undici fra i modelli AI più celebri confrontandoli con un gruppo di umani nel compito di leggere orologi analogici.

L’idea è semplice: i ricercatori hanno creato 180 orologi analogici — alcuni tradizionali, altri con numeri romani, altri ancora specchiati o con design grafici complessi, con secondi, sfondi variopinti, lancette che richiedevano precisione — e hanno “chiesto” (se così si può dire) ai vari modelli AI di leggere il tempo mostrato. Sul versante umano, i soggetti hanno invece mostrato un’accuratezza molto alta (circa l’89,1%).

Qui le cose cominciano a farsi davvero interessanti. Mentre per noi umani leggere l’orologio è quasi un’abilità acquisita già in giovane età, gli AI mostravano difficoltà enormi:

  • Il modello che ha fatto meglio tra le AI — Google Gemini 2.5 Pro — ha raggiunto solo il 13,3% di accuratezza.
  • Altri modelli hanno fatto anche peggio: GPT-5 di OpenAI raggiunge l’8,4%. Claude (di Anthropic) sta intorno al 4-5%.
  • Certo, ci sono vari casi particolari: ad esempio Grok 4 di xAI ha sbagliato in un modo curioso, identificando come “orologi impossibili” molti esempi che in realtà erano normali.

Oltre all’accuratezza bassa, gli errori erano molto più “grandi”: mentre quando sbagliamo noi, spesso la differenza è di pochi minuti (tre, per esempio), molti modelli sbagliavano per una o più ore. In alcuni casi si avvicinava al risultato che si otterrebbe tirando a caso in un orologio a 12 ore.

Non si tratta solo di leggere le lancette: i problemi sembrano essere più profondi, collegati al modo in cui questi sistemi “vedono” le immagini, ne interpretano le relazioni spaziali e traducono queste informazioni in concetti di tempo.

Alcune delle difficoltà principali:

  • Numeri romani: quasi nessuno dei modelli ha fatto bene con quadranti che li usano.
  • Clocks specchiati o “inversi” (mirror clocks), dove la distribuzione delle lancette è come riflessa.
  • Quadranti con sfondi decorativi, complessi, colorati: distraggono, rendono difficile distinguere lancette, segni di ore/minuti.
  • Lancette dei secondi o richieste di precisione maggiore.

Quando però i modelli “capivano” di che orologio si trattava, e riuscivano a identificare le lancette e i numeri, allora le parti successive del compito — ad esempio convertire l’ora letta, aggiungere minuti, cambiare fuso orario — non sembravano essere il vero problema: quello è dominio matematico, di ragionamento, che gli AI gestiscono relativamente meglio.

Questa scoperta è interessante per diverse ragioni:

  1. Confina le illusioni di onnipotenza dell’AI
    Quando leggiamo articoli che parlano di AI che batte l’uomo nei quiz, nei giochi, nella scrittura, è comprensibile che molti pensino che ormai “fa tutto”. Ma leggere un orologio analogico è qualcosa che la maggior parte di noi fa quasi senza pensarci, ed è rivelatore che un’abilità così “banale” per noi resti così sfidante per le macchine.
  2. Mette in discussione come si addestrano gli AI
    Parte della tesi dello studio è che molti dei modelli AI probabilmente non hanno visto abbastanza esempi di orologi analogici nei dataset usati per l’addestramento, soprattutto quelli con configurazioni non standard (romani, specchiati, con sfondi complessi). Anche il fatto di dover trasformare un’immagine in una rappresentazione testuale per poi ragionare sul tempo potrebbe complicare il processo. unite.ai
  3. Implica limiti nella percezione visiva e nel ragionamento spaziale
    La visione artificiale non è solo “riconoscere oggetti”. Significa capire relazioni spaziali (la posizione relativa delle lancette), geometria (quanto l’una è distante dall’altra, quanto angolo formano), interpretazione simbolica (quel segno è un numero romano? È un III o un II?), e poi trasformazione in un concetto astratto come “sono le tre e venti”. Ed è qui che molti modelli vacillano seriamente.
  4. Potenziali ricadute pratiche
    Orbene, può sembrare un “gioco da intellettuali” analizzare quanto le AI sbagliano su un orologio, ma queste debolezze possono emergere in applicazioni dove è importante la visione visiva e il ragionamento spaziale: robot, veicoli autonomi, sistemi di sorveglianza, strumenti diagnostici che dipendono da immagini, dispositivi di riconoscimento per persone con disabilità visive o cognitive, interfacce che abbiano tempi visuali da interpretare, etc. Se il modello non capisce bene la struttura visiva, può generare errori seri.

Lo studio stesso suggerisce che per migliorare le AI in queste aree servirebbero:

  • Più esempi diversificati durante l’addestramento, con quadranti di ogni tipo, contesti visivi variabili.
  • Modelli che imparino non solo a “vedere”, ma a comprendere la geometria e le relazioni spaziali nel dettaglio.
  • Forse architetture che non separino rigidamente la parte visiva dalla parte razionale, ma permettano un’integrazione fluida: vedere, interpretare, tradurre in concetto numerico, ragionare, tutto insieme.
  • Benchmark come ClockBench (e dataset analoghi) che evidenziano questi “buchi”, in modo che chi lavora nel campo AI abbia chiaro dove intervenire.

In fondo, c’è qualcosa di affascinante nel fatto che strumenti umani antichi come l’orologio analogico — nato secoli fa — funzionino così bene con i nostri cervelli, ma risultino così ostici per l’AI moderna. Questi dispositivi diventano specchi: mostrano non solo quanto abbiamo imparato noi, ma anche quanto ci manca all’AI per raggiungere quella versatilità minimale che diamo per scontata.

Mentre continuiamo a progettare AI sempre più potenti, c’è valore enorme nel prestare attenzione ai dettagli “umili” come questo. Non sono solo curiosità: sono test cruciali per capire fino a che punto le macchine stanno davvero imparando come noi, con la nostra capacità di vedere, interpretare e comprendere il mondo attorno in modo rapido, intuitivo, preciso.

Di Fantasy