Immagine AI

Negli ultimi mesi il problema del contesto lungo è tornato al centro del dibattito sull’evoluzione dei modelli di intelligenza artificiale. La difficoltà di analizzare documenti estesi, conversazioni prolungate o basi di codice complesse rappresenta infatti uno dei principali colli di bottiglia per le prestazioni dei sistemi di nuova generazione. In questo scenario, la tecnica DeepSeek-OCR, proposta dalla società DeepSeek e presentata come una soluzione innovativa, aveva attirato grande attenzione. Tuttavia, un nuovo studio firmato da ricercatori della Università di Tohoku e della Accademia cinese delle scienze ridimensiona in modo significativo le promesse di questa tecnologia.

DeepSeek-OCR era stata lanciata lo scorso ottobre con un’idea apparentemente elegante: convertire il testo in immagini e affidare la lettura a un modello multimodale, riducendo drasticamente il numero di token da elaborare. Secondo DeepSeek, questa “compressione contestuale basata sulla visualizzazione” avrebbe potuto abbattere il carico computazionale di un fattore compreso tra sette e venti volte, aprendo la strada a una gestione più efficiente di testi molto lunghi. Per il settore, sempre più alle prese con limiti di memoria e costi di inferenza, la proposta sembrava offrire una via d’uscita concreta.

Il lavoro dei ricercatori giapponesi e cinesi, pubblicato online e accompagnato da analisi sperimentali dettagliate, racconta però una storia più complessa. Secondo lo studio, le prestazioni di DeepSeek-OCR non derivano in modo predominante da una reale capacità di comprensione visiva, ma si appoggiano in larga misura ai cosiddetti “precedenti linguistici”. In altre parole, il modello tende a ricostruire il contenuto sfruttando strutture di frase, schemi sintattici e modelli di parole già appresi durante l’addestramento, piuttosto che leggere accuratamente le informazioni presenti nell’immagine.

Questa distinzione è tutt’altro che accademica. I ricercatori hanno infatti progettato esperimenti specifici per separare la componente di riconoscimento visivo da quella di ragionamento linguistico. Alterando intenzionalmente il significato di frasi e parole, o rimuovendo indizi semantici chiave, hanno osservato un crollo drastico delle prestazioni. L’accuratezza, che in condizioni normali si attestava intorno al 90%, è scesa fino a circa il 20% quando il contesto linguistico veniva compromesso. Un risultato che suggerisce come una parte rilevante delle capacità dichiarate del modello sia sostenuta dall’inferenza basata su conoscenze pregresse, più che da una lettura visiva affidabile.

Un altro punto critico emerso dallo studio riguarda il comportamento del modello in condizioni di stress, con lunghezze di contesto progressivamente maggiori. Contrariamente all’obiettivo dichiarato di superare i limiti del contesto lungo, DeepSeek-OCR ha mostrato un degrado marcato delle prestazioni intorno alla soglia dei 10.000 token. Secondo gli autori, questo indica che le tecniche di compressione ottica, lungi dal risolvere il problema strutturale, potrebbero addirittura aggravarlo, introducendo nuove fragilità nella comprensione del testo.

I ricercatori sottolineano inoltre che le metriche di prestazione pubblicate inizialmente da DeepSeek non rendono pienamente visibili queste limitazioni, con il rischio di fornire un quadro eccessivamente ottimistico dell’efficacia del metodo. Il riferimento alle analisi riportate su arXiv evidenzia come, in ambienti di “interruzione semantica”, il modello continui a produrre risposte plausibili basandosi su pattern linguistici, anche quando la comprensione visiva reale è compromessa.

Detto questo, lo studio non liquida DeepSeek-OCR come un fallimento totale. Il problema del contesto lungo resta una delle sfide più difficili dell’intelligenza artificiale contemporanea, e nessuna soluzione oggi può dirsi definitiva. Alcuni esperti invitano a una valutazione più sfumata. Li Bojie, ricercatore formatosi all’Università di Scienza e Tecnologia della Cina e oggi alla guida di una startup di intelligenza artificiale, ha osservato che in scenari in cui le informazioni sono incomplete o degradate, come nel caso di manoscritti quasi illeggibili, sfruttare la conoscenza linguistica pregressa del modello può rivelarsi un vantaggio. In contesti diversi, come documenti stampati in modo chiaro e strutturato, la stessa caratteristica può invece diventare un fattore che riduce l’accuratezza complessiva.

Nel quadro più ampio della ricerca sull’IA, questa vicenda mette in luce un punto cruciale: ridurre i token non equivale automaticamente a migliorare la comprensione. La gestione efficace del contesto lungo richiede non solo trucchi di compressione, ma architetture capaci di mantenere coerenza semantica, memoria affidabile e reale capacità di ragionamento su grandi volumi di informazione. DeepSeek-OCR rappresenta un tentativo interessante e stimolante, ma lo studio dell’Università di Tohoku e dell’Accademia cinese delle scienze mostra quanto sia ancora lunga la strada per superare davvero i limiti strutturali dell’elaborazione del linguaggio su larga scala.

Di Fantasy