Quando si parla di intelligenza artificiale, si tende spesso a pensare al “training”: ore e ore di GPU che digeriscono enormi dataset, affinano i pesi, cercano di imparare modelli da zero. Ma in realtà, in molti casi, la sfida più ardua non è insegnare all’IA a pensare, bensì farla eseguire bene, ovunque, in modo rapido e distribuito, anche quando l’utente è lontano dai grandi data center. È qui che entra in gioco l’inferenza — il momento in cui l’IA reagisce alle richieste del mondo reale — e sono proprio lì che nascono i colli di bottiglia più insidiosi.

Cloudflare — che storicamente non è un’azienda d’IA, ma un colosso della rete e della distribuzione internet — sta affrontando questa sfida con un approccio audace: costruire un motore di inferenza, chiamato Infire, scritto interamente in Rust, pensato per funzionare su una rete distribuita globale piuttosto che in grandi data center centralizzati.

L’idea è intrigante e ha qualcosa di rivoluzionario: perché, se l’IA deve essere parte integrante della vita online quotidiana, non può dipendere da “isole” di potenza calcolo lontane. Deve girare vicino all’utente, con latenza ridotta, adattandosi alle risorse locali, gestendo traffico misto, interfacce eterogenee. Ed è proprio questo che Cloudflare vuole fare.

Nelle architetture AI tradizionali, l’inferenza — cioè il processo con cui un modello risponde a un input — viene tipicamente eseguita in grandi centri dati dotati di GPU potenti. Le richieste degli utenti viaggiano verso questi centri, vengono elaborate e tornano indietro. Fin qui tutto bene, se si vive vicino a un data center — ma per molti utenti nel mondo la latenza è già un ostacolo evidente.

Cloudflare, d’altro canto, ha una rete con punti di presenza (PoP) sparsi in centinaia di città. La sua forza è la prossimità: molti utenti internet sono “vicini” — nel senso di rete — a uno dei nodi di Cloudflare. Se quel nodo potesse fare l’inferenza, invece di incanalare tutto verso un centro lontano, l’esperienza sarebbe più rapida, più fluida.

Ma distribuire l’inferenza porta problemi: ogni nodo ha risorse limitate (GPU, memoria, banda, CPU), e spesso le richieste sono variabili. Occorre una tecnologia che sia efficiente, leggera, capace di gestire carichi dinamici, condividere risorse e scalare in modo intelligente.

È qui che entra in scena Infire: un motore di inferenza progettato da Cloudflare per girare sopra la sua rete, scritto in Rust per garantire controllo fine, prestazioni elevate e basso overhead. In confronto, molti motori di inferenza open source (vLLM, altri) sono scritti con componenti Python o configurati per grandi data center, ma non per una rete distribuita con nodi piccoli e carichi eterogenei.

Secondo i calcoli interni, Infire è fino al 7 % più veloce rispetto a vLLM (versione 0.10.0) su hardware “scarico” con GPU H100 NVL, e con carico reale la differenza può essere ancora più marcata. Inoltre, grazie al fatto di poter servire più richieste con meno GPU e con meno overhead CPU, si ottiene un uso più efficiente delle risorse.

Uno dei punti chiave nella strategia è la scelta del linguaggio e dell’implementazione: Rust non è solo “di moda”, ma porta vantaggi concreti di sicurezza, efficienza e controllo della memoria. Cloudflare afferma che molti dei suoi ingegneri hanno competenze profonde in Rust, e questo rende l’investimento sensato.

Un motore di inferenza distribuito deve affrontare vincoli che non compaiono nei grandi sistemi centralizzati: evitare allocazioni eccessive, minimizzare overhead di sistema, gestire comunicazioni fra nodi, multiplexare modelli, caricare modelli dinamicamente, accodare richieste, liberare risorse quando non servono, ottimizzare memoria e banda. Rust aiuta a lavorare a questo livello con competenza tecnica che altri linguaggi (come Python puro) non offrono, o lo fanno a prezzo di overhead.

Cloudflare parla di tecniche per massimizzare l’utilizzo di memoria, I/O di rete e GPU, ridurre overhead CPU, ottimizzare la comunicazione fra modelli, e di poter ospitare più modelli sulla stessa GPU con scheduling dinamico.

Infire gestisce non solo un modello per nodo, ma più modelli coesistenti e carichi variabili, cosa fondamentale per un ambiente reale.

Un altro aspetto interessante è che molti motori di inferenza “tradizionali” non gestiscono bene la condivisione dinamica di GPU o l’hosting simultaneo di modelli senza ricorrere a isolamenti pesanti. Infire è progettato per fare proprio questo: schedulazione veloce, condivisione intelligente, gestione dinamica di carichi.

Il modello ha potenzialità significative: latenza ridotta per l’utente finale (perché l’inferenza avviene più vicino), uso più efficiente delle risorse complessive, resilienza (se un nodo è sovraccarico, il carico può essere spostato), scalabilità più modulare, possibilità di distribuire modelli più leggeri a molti nodi.

Per gli sviluppatori e i clienti che costruiscono applicazioni AI su Cloudflare Workers, questo significa che il modello non è solo “disponibile”, ma può rispondere rapidamente anche in contesti geografici remoti. Sui nodi edge, infine, l’IA non è più una funzione “di centro”, ma parte integrante della rete.

Ma non è privo di sfide. Occorre gestire la coerenza dei modelli, distribuire aggiornamenti, sincronizzare versioni, bilanciare il carico e fare caching intelligente. Le reti distribuite introducono variabilità: nodi con risorse diverse, intervalli di carico che cambiano nel tempo, problemi di rete, latenza variabile, guasti locali. La complessità operativa salirà molto rispetto a un data center centralizzato.

Inoltre, la sicurezza diventa un tema delicato: ogni nodo che esegue inferenza è potenzialmente un punto d’attacco. Occorre garantire che i modelli siano isolati, che non si possano esfiltrare dati, che le operazioni siano verificabili. Le politiche di governance e sicurezza attorno ai singoli nodi devono essere robuste.

Un ulteriore limite è che non tutti i modelli o tutti i carichi sono adatti all’architettura distribuita: per modelli giganteschi con enormi requisiti di memoria o carichi bursts intensi, potrebbe essere ancora necessario ricorrere ai cluster centrali. Il compromesso tra efficienza e potenza massima resta un nodo da attentamente valutare.

Ciò che rende questa iniziativa significativa non è solo che Cloudflare stia costruendo un motore di inferenza, ma che stia tentando di reimmaginare dove e come l’IA debba essere calcolata. Invece di relegare l’IA ai giganti dei data center, l’idea è portarla nella rete stessa, distribuirla, renderla parte dell’infrastruttura.

Di Fantasy