Il palcoscenico è quello dell’imminente Worldwide Developer Conference di Apple. Ma prima di alzare il sipario sulle novità hardware o software, l’azienda di Cupertino sceglie un’altra scena: i laboratori del ragionamento artificiale.
Un recente studio – noto come The Illusion of Thinking – rappresenta un colpo diretto al cuore delle “Large Reasoning Models” (LRM), tra cui spiccano i nomi di Claude 3.7 Sonnet di Anthropic, DeepSeek‑R1, e la variante “mini” dell’ultimo gioiello OpenAI, o3‑mini.
Gli scienziati Apple hanno scelto un approccio meno scontato rispetto ai tradizionali benchmark matematici o di codice: una serie di rompicapo algoritmici – come il noto Tower of Hanoi – costruiti per aumentare gradualmente la complessità e monitorare passo passo le capacità cognitive delle IA.
L’idea risiede (parafrasando) nel chiedere: “Quando smettono di pensare?”. I risultati sono stati sorprendenti. Normalmente, ci si aspetta che un modello evolva nella soluzione dei problemi anche se la sfida si fa articolata. Tutt’altro: i modelli mostrano un “declino d’accuratezza” collettivo, fino ad azzerarsi quando la difficoltà supera una certa soglia – una sorta di collasso cognitivo.
Ancora più stupefacente: l’uso dei token, misura del “tempo di riflessione”, diminuisce proprio mentre serve, dimostrando come il modello “abbia mollato”, decide di non impegnarsi più in ragionamenti articolati.
E non basta: persino quando agli algoritmi si offre la soluzione stessa, proponendone passo dopo passo la logica, i modelli non migliorano – come se conoscessero il percorso, ma non lo traducessero in azione.
Secondo Apple, il ragionamento mostrato da queste IA non è reale. Non è “pensiero” nel senso umano: è piuttosto abilità nella simulazione di pattern, abilità nel richiamare blocchi già affrontati, spunta la parola “mimano ragionamenti”.
Per dirlo con le stesse parole della ricerca: “Gli LRM avanzati… non sviluppano un vero problem-solving generalizzabile, con precisione che collassa a zero oltre certe complessità”.
Tra gli osservatori, c’è chi approva con cautela: Gary Marcus, sostenitore del miglioramento fondamentale dell’IA, osserva che non abbiamo raggiunto AGI e serve trasferire l’attenzione su nuovi approcci . Su Reddit, la critica è altrettanto netta, citando un tweet: “Apple just proved AI ‘reasoning’ models … don’t actually reason at all.”
Altri invitano al discernimento: i risultati non screditano i modelli, ma evidenziano un problema serio – quanto rappresentino ‘vera’ intelligenza.
L’articolo di Apple non segna la fine del vantaggio tecnologico delle LLM, ma l’inizio di una fase riflessiva. Serve distinguere tra capacità di imitare ragionamenti e il pensiero autentico, come fa un essere umano. E forse serve disegnare nuovi test, più robusti e meno ingannabili .
In conclusione: nel 2025, si avvicina il punto in cui l’IA potrebbe superare il “wall of thinking” – e Apple, con questo paper, alza il velo, invitando a non fidarsi troppo dell’apparente, fluida “intelligenza” generata a suon di prompt.