SubQ e il superamento dei limiti quadratici nella scalabilità degli LLM: promessa un’efficienza 1.000 volte superiore per elaborare testi lunghi

Fin dall’introduzione dei Transformer nel 2017, la capacità dei modelli di elaborare informazioni è stata vincolata da una crescita quadratica dei costi computazionali rispetto alla lunghezza del contesto. In termini pratici, raddoppiare il numero di dati in ingresso non raddoppia semplicemente il costo, ma lo quadruplica, rendendo l’analisi di contesti estremamente vasti un’impresa economicamente e tecnicamente proibitiva. La startup di Miami Subquadratic è emersa recentemente dalla fase di stealth dichiarando di aver infranto questo paradigma con il rilascio di SubQ 1M-Preview, un modello che promette un’efficienza mille volte superiore grazie a un’architettura interamente subquadratica dove il calcolo cresce in modo lineare rispetto alla lunghezza del contesto.

Il cuore tecnologico di questa innovazione risiede nella cosiddetta Subquadratic Sparse Attention (SSA). Il principio teorico alla base della SSA parte dalla constatazione che la stragrande maggioranza dei confronti tra token eseguiti nei sistemi standard rappresenta uno spreco di risorse. Mentre i modelli tradizionali analizzano ogni singola interazione possibile tra ogni parola del testo, il sistema SSA impara a identificare dinamicamente quali connessioni siano effettivamente rilevanti per il significato, ignorando il resto. A differenza di altri approcci che utilizzano schemi di attenzione fissi o locali, il modello di Subquadratic opera una selezione dipendente dal contenuto: è il modello stesso a decidere, in base al valore semantico dei dati, dove “guardare” all’interno di una sequenza che può estendersi per milioni di elementi. Questa capacità permette di mantenere una precisione elevata nel recupero delle informazioni anche a distanze enormi, eliminando la necessità di infrastrutture esterne come i sistemi RAG, che solitamente vengono utilizzati per “spezzettare” i dati e aggirare i limiti di memoria dei modelli standard.

I dati prestazionali dichiarati dall’azienda mostrano una curva di efficienza che migliora drasticamente all’aumentare della complessità del compito. Nelle fasi di pre-caricamento del testo (prefill), la tecnologia SSA garantisce una velocità 7,2 volte superiore rispetto all’attenzione densa su contesti di 128.000 token, dato che sale vertiginosamente a 52,2 volte quando si raggiunge il milione di token. Per consolidare queste affermazioni, la startup ha presentato risultati su benchmark specifici come il test RULER, dove il modello SubQ ha ottenuto un punteggio del 95% a fronte di un costo operativo drasticamente inferiore rispetto ai leader di mercato come Claude Opus di Anthropic. In particolare, per il medesimo compito di ragionamento su contesti estesi, l’azienda dichiara un costo di soli 8 dollari contro le migliaia di dollari potenzialmente richiesti dalle infrastrutture attuali.

Nonostante queste metriche impressionanti, la comunità dei ricercatori ha accolto l’annuncio con un misto di interesse tecnico e scetticismo metodologico. Una delle critiche principali riguarda la natura stessa del modello: il CTO Alexander Whedon ha confermato che SubQ non è stato addestrato da zero, ma utilizza pesi derivati da modelli open-source preesistenti, probabilmente DeepSeek o Kimi, come base di partenza per l’affinamento architettonico. Questo solleva interrogativi sulla reale capacità dell’architettura SSA di mantenere le stesse prestazioni se applicata a modelli di scala molto più vasta o a compiti di ragionamento generale che non siano strettamente legati al recupero di informazioni in contesti lunghi o alla scrittura di codice. Esiste infatti un divario notevole, di circa 17 punti percentuali, tra i risultati ottenuti nei laboratori di ricerca dell’azienda e quelli verificati da terze parti sulla versione di produzione, una discrepanza che deve ancora essere pienamente chiarita.

Il valore di Subquadratic sarà determinato dalla capacità della sua matematica di resistere a test indipendenti e rigorosi nel lungo periodo. Il settore ha già assistito in passato a proclami simili da parte di altre realtà che, pur promettendo rivoluzioni subquadratiche, hanno faticato a tradurre la teoria in prodotti commerciali stabili o hanno finito per adottare architetture ibride che diluiscono i benefici della scalabilità lineare. Se però le rivendicazioni di SubQ dovessero confermarsi valide, ci troveremmo di fronte a un cambiamento fondamentale nell’economia dell’intelligenza artificiale: la possibilità di processare interi database, archivi legali o documentazioni mediche in un unico passaggio, rendendo obsolete le attuali e fragili strategie di orchestrazione dei dati e aprendo la strada a una nuova generazione di sistemi AI capaci di una memoria operativa virtualmente illimitata.

SubQ e il superamento dei limiti quadratici nella scalabilità degli LLM: promessa un’efficienza 1.000 volte superiore per elaborare testi lunghi

DiFantasy

Di Fantasy

Articoli correlati

Google rilascia Agent eXecutor: il runtime open source per agenti AI che lavorano per ore o giorni senza perdere lo stato

Google AI Studio trasforma la creazione di app Android in un processo completamente generativo

Huawei punta a 1,4 nanometri senza EUV: la sfida di LogicFolding e della Tau Scaling Law

Ultimi Post

Google rilascia Agent eXecutor: il runtime open source per agenti AI che lavorano per ore o giorni senza perdere lo stato

Google AI Studio trasforma la creazione di app Android in un processo completamente generativo

Huawei punta a 1,4 nanometri senza EUV: la sfida di LogicFolding e della Tau Scaling Law

Hancom With presenta Hancom XCEOS, piattaforma Zero Trust con autenticazione continua basata su AI