Nell’intelligenza artificiale applicata a livello enterprise, uno dei nodi più critici è la efficienza nell’inferenza: quanta latenza, quanti calcoli sprecati, quanto overhead nel passare da una richiesta all’altra. Together AI ha presentato la sua risposta a questo problema: un sistema chiamato ATLAS (AdapTive-LeArning Speculator System), concepito per trasformare una modalità statica di ottimizzazione in un processo dinamico che “impara” dai carichi reali e che promette un’accelerazione fino al 400 % rispetto al livello di base di inferenza.
L’idea di partenza è che molte delle ottimizzazioni oggi usate — in particolare quelle basate su speculator, modelli più piccoli che “predicono” token futuri per anticipare il comportamento del modello principale — siano statiche: addestrate una volta su un set di dati che rappresenta il carico atteso, deployate e poi sostanzialmente immutate. Questo approccio funziona fino a che il tipo di richieste non varia troppo. Ma le organizzazioni che vedono evolvere i loro casi d’uso (da chatbot a generazione di codice, da analisi testo a interazione con strumenti esterni) scoprono che il “speculatore” inizia a perdere efficacia, perché il dominio su cui è stato addestrato diverge dal dominio delle richieste reali. È il fenomeno definito come “drift del workload”: il carico cambia, e le performance peggiorano.
ATLAS cerca di risolvere questo problema introducendo un’architettura ibrida e adattiva. Il sistema è composto da tre attori che collaborano: un speculatore statico, robusto e generalista, che garantisce una base di prestazioni; un speculatore adattivo, leggero e in costante apprendimento, specializzato sui pattern del carico attuale; e un controllore basato sulla fiducia (confidence-aware), che decide in ogni momento quale speculatore usare e quanto “guardare avanti” (lookahead) nelle predizioni dei token. In sostanza, quando l’adattivo non è ancora sufficientemente sicuro, il sistema può appoggiarsi al statico, ma man mano che l’adattivo impara, la strategia predittiva può spostarsi verso l’uso preferenziale di quest’ultimo, sfruttando vantaggi di latenza e throughput.
Un punto cruciale nella proposta è l’equilibrio tra accuratezza delle predizioni e latenza di bozza (draft latency). Se lo speculatore propone token che il modello principale non conferma, si genera uno spreco: il tempo investito è vanificato. Ma se le predizioni sono buone e il controller le accetta con fiducia, si può “coprire” un numero maggiore di token in parallelo, riducendo l’accesso alla memoria e migliorando il throughput. In termini pratici, la tecnica sfrutta il fatto che molte fasi dell’inferenza sono memoria-bound: generare token uno per uno coinvolge molte operazioni di lettura memoria; se invece posso anticipare più token e verificare insieme, riduco le letture ridondanti e aumento l’utilizzo della capacità computazionale.
I risultati mostrati da Together AI sono notevoli: in piena “adattazione”, ATLAS ha raggiunto 500 token al secondo su modelli DeepSeek-V3.1 su GPU Nvidia B200, performance comparabili (o addirittura superiori) a quelle di hardware specializzato. In più, la velocizzazione complessiva del 400 % non viene da un solo contributo, ma dal cumulo di ottimizzazioni: la quantizzazione FP4, miglioramenti del motore Turbo, lo speculatore statico ottimizzato e poi il livello adattivo sopra. In altre parole, ogni strato si somma agli altri per spingere il limite.
Un’altra chiave di comprensione è la metafora con la cache intelligente, pur con differenze sostanziali. Non si tratta di memorizzare risposte esatte (come in Redis o memcached) per richieste identiche, ma di riconoscere pattern nei token generati, prevedere sequenze probabili e anticipare scenari simili. Questo “apprendere da contesti simili” è ciò che rende ATLAS capace di specializzarsi su specifici workload, anche se il modello principale non ha mai visto esattamente quei casi durante l’addestramento.
Quanto può valere tutto questo per le aziende che stanno portando l’IA su scala? Il cambiamento di paradigma è significativo. Il passaggio dal modello “statistico e fisso” a un modello “dinamico e adattivo” nelle infrastrutture di inferenza è una svolta. Le realtà che adottano modelli AI devono aspettarsi che i loro carichi mutino nel tempo: nuovi casi d’uso, evoluzione dei dati, spostamenti nelle richieste dell’utenza. Un’infrastruttura che non si adatta rischia di invecchiare rapidamente. ATLAS è già incluso, senza costi aggiuntivi, nelle endpoint dedicati della piattaforma Together AI, ed è già accessibile a decine di migliaia di sviluppatori.
Certo, la strada non è priva di nodi irrisolti. ATLAS oggi è proprietario, e non tutte le tecniche sottostanti sono rese open source, anche se Together ha in passato condiviso componenti di ricerca o collaborato con progetti come vLLM. Questo lascia aperto il tema di quanto queste innovazioni si allargheranno all’ecosistema più ampio. Inoltre, il bilanciamento tra adattività e stabilità è delicato: un cambiamento troppo rapido o un’overconfidenza dell’adattivo può portare a errori, regressioni o oscillazioni indesiderate. Ma l’intuizione che sistemi auto-ottimizzanti in tempo reale possano colmare il divario fra software e hardware specializzato è potente e promettente.