Con il sistema Aegaeon, Alibaba presenta una soluzione che guarda al di là del semplice aumento della potenza di calcolo, puntando piuttosto sulla massimizzazione dell’efficienza nell’uso delle GPU — un tema cruciale soprattutto per realtà che, come in Cina, affrontano limitazioni nell’accesso alle risorse hardware e costi elevati.
L’annuncio – accompagnato da risultati tecnici e da una presentazione al prestigioso Symposium on Operating Systems Principles (SOSP) di Seoul – mostra che Aegaeon ha ridotto del 82% il numero di GPU Nvidia necessarie per gestire modelli di grandi dimensioni nel contesto di Alibaba Cloud.
Ma cosa significa, in termini pratici e strategici, questa innovazione? E quali sono le implicazioni per l’ecosistema dell’IA, per le aziende che sviluppano modelli e per chi deve decidere dove investire?
Le architetture moderne di modelli linguistici di grande scala (LLM) e altri modelli IA richiedono GPU potenziate, ovvero grandi quantità di memoria, potenza di calcolo e spesso unità dedicate. Tuttavia, non tutti i modelli o tutte le richieste operano con la stessa intensità o frequenza. In una piattaforma che serve decine o centinaia di modelli simultaneamente, l’allocazione di GPU su base “uno modello = una GPU” può portare a sprechi. Alibaba ha rilevato che nel suo marketplace “17,7% delle GPU veniva utilizzato per processare solo l’1,35% delle richieste”.
La latenza introdotta dal cambio tra modelli, la frammentazione delle risorse, la sottoutilizzazione delle GPU meno usate rappresentano tutti fattori che erodono l’efficienza, aumentano i costi operativi e rendono più difficile scalare i servizi IA in modo sostenibile.
Per arginare queste inefficienze, Alibaba ha sviluppato Aegaeon, un sistema che parte da un’idea semplice ma potente: pooling delle risorse GPU e scheduling al livello del token. Invece di riservare una GPU per un modello che resterà attivo solo occasionalmente, la GPU può servire — contemporaneamente o in rapida successione — più modelli, adattandosi in modo dinamico alle richieste. Il paper tecnico racconta che la tecnologia consente di passare da 1.192 GPU utilizzate prima a 213 GPU nella prova concreta con modelli fino a 72 miliardi di parametri.
Un punto chiave è il “token-level scaling”: la GPU è in grado di spostarsi da un modello all’altro dopo la generazione di un token, riducendo drasticamente la latenza del cambio modello (Alibaba parla di una riduzione del 97 %) e permettendo che più modelli siano serviti efficientemente da un’unica unità hardware.
Aegaeon rompe il paradigma classico “una GPU per modello” e introduce un ambiente in cui le risorse sono condivise, gestite in modo agile e adattate alla domanda in tempo reale.
L’innovazione in infrastruttura che Alibaba porta avanti con Aegaeon sposta l’attenzione dal mero “modello IA” alla “infrastruttura IA”. Molto spesso si parla di architetture, algoritmi, set di dati – ma se la piattaforma hardware sotto non è efficiente, il modello rimane solo una parte del problema.
Questo apre alcune riflessioni importanti. Primo, le aziende che intendono offrire inferenza di modelli IA su larga scala — sia modelli proprietari che modelli come servizio — devono considerare che il cost-per-prediction non è solo funzione del modello ma anche della efficienza della pipeline hardware. Secondo, questo tipo di ottimizzazione può dare più spazio competitivo a operatori che abbiano sviluppato internamente soluzioni di pooling o scheduling, rispetto a chi acquista risorse hardware “a pioggia”. Terzo, la tecnologia mostra che l’innovazione a livello di sistema software-hardware resta una leva chiave per ridurre barriere e costi nell’IA e non solo l’innovazione nel modello.