La rapida espansione dei modelli linguistici di grandi dimensioni e delle applicazioni di intelligenza artificiale generativa sta trasformando profondamente il ruolo delle infrastrutture computazionali nei data center moderni. L’addestramento e l’esecuzione di questi modelli richiedono quantità enormi di potenza di calcolo, spesso fornita da cluster di GPU ad alte prestazioni come le NVIDIA H100 o altre architetture dedicate all’AI. Tuttavia, nonostante gli ingenti investimenti necessari per costruire e mantenere queste infrastrutture, una parte significativa della capacità computazionale rimane inutilizzata per lunghi periodi di tempo. In questo contesto si inserisce l’iniziativa della società FriendlyAI, guidata dal CEO Jeon Byeong-gon, che ha annunciato il lancio della piattaforma Inference Sense, uno strumento progettato per trasformare la capacità GPU inutilizzata in una fonte di ricavi attraverso l’orchestrazione intelligente dei carichi di lavoro di inferenza.
Il problema che la piattaforma intende affrontare riguarda l’inefficienza strutturale dei moderni cluster GPU. La costruzione e la gestione di un’infrastruttura dedicata all’intelligenza artificiale comportano costi estremamente elevati. Non solo l’acquisto delle GPU richiede investimenti considerevoli, ma anche le spese operative legate a energia elettrica, raffreddamento, rete e manutenzione contribuiscono a rendere queste infrastrutture tra le più costose dell’intero ecosistema tecnologico. Un singolo acceleratore come una GPU NVIDIA H100 può essere noleggiato a circa due dollari all’ora, mentre un nodo composto da otto GPU può arrivare a costare tra i sedici e i venti dollari all’ora. Tuttavia, nella pratica operativa è molto difficile mantenere un utilizzo costante del 100% delle risorse. Dopo la fase di addestramento dei modelli o durante periodi di minore domanda, gran parte della potenza di calcolo rimane inattiva, pur continuando a generare costi operativi.
Questo fenomeno è particolarmente evidente nel contesto dei cosiddetti NeoCloud, una nuova categoria di fornitori di infrastrutture specializzati nella gestione di cluster GPU dedicati all’intelligenza artificiale. In questi ambienti, una volta completate le operazioni di training di un modello, l’hardware ad alte prestazioni può restare inutilizzato per lunghi periodi, creando un divario tra il costo dell’infrastruttura e il valore economico effettivamente generato. FriendlyAI descrive questa situazione come una forma di inefficienza sistemica dei data center AI, in cui l’assenza di meccanismi dinamici di allocazione delle risorse impedisce di sfruttare pienamente il potenziale delle infrastrutture.
La piattaforma Inference Sense nasce proprio con l’obiettivo di colmare questo vuoto. Il sistema è stato progettato come un’infrastruttura di orchestrazione in grado di rilevare automaticamente la capacità GPU inutilizzata all’interno di un cluster e di assegnarla immediatamente a carichi di lavoro di inferenza provenienti da altri utenti. In sostanza, quando una GPU rimane inattiva, la piattaforma può attivare automaticamente attività di inferenza AI a pagamento, trasformando la capacità computazionale inutilizzata in una fonte di entrate. Questo meccanismo è stato paragonato a quello di Google AdSense, che consente ai siti web di monetizzare gli spazi pubblicitari inutilizzati. La differenza fondamentale risiede nel fatto che, invece di monetizzare lo spazio pubblicitario, Inference Sense monetizza il tempo di elaborazione delle GPU.
Dal punto di vista architetturale, la piattaforma funziona come un sistema di orchestrazione che collega due componenti principali: da un lato gli operatori che possiedono infrastrutture GPU, dall’altro la domanda globale di inferenza generata da utenti e applicazioni AI. FriendlyAI gestisce la pipeline della domanda, l’ottimizzazione dei modelli e lo stack tecnologico necessario per eseguire i carichi di lavoro di inferenza. Gli operatori dei data center contribuiscono invece con la capacità computazionale delle proprie GPU. Quando la piattaforma rileva risorse disponibili, instrada automaticamente i carichi di lavoro verso l’hardware degli operatori, consentendo l’esecuzione di modelli AI e generando ricavi basati sul numero di token elaborati.
Una delle caratteristiche chiave del sistema è la possibilità di configurare in modo preciso il livello di partecipazione delle risorse. Gli operatori possono definire quali nodi GPU rendere disponibili per l’orchestrazione, stabilire gli orari in cui il sistema può utilizzare la capacità inutilizzata e specificare quanta potenza di calcolo mantenere come riserva per le proprie attività interne. Questo approccio consente di integrare Inference Sense all’interno delle infrastrutture esistenti senza interferire con i carichi di lavoro primari dei data center.
Il sistema supporta inoltre l’esecuzione di diversi modelli open-weight di nuova generazione. Tra questi figurano architetture come DeepSeek, Q1, Kimi, GLM e Minimax, modelli sviluppati per applicazioni di intelligenza artificiale generativa e inferenza su larga scala. Grazie alla piattaforma di orchestrazione, questi modelli possono essere distribuiti automaticamente sulle GPU degli operatori, consentendo l’esecuzione di richieste provenienti da utenti distribuiti a livello globale. I ricavi generati dall’elaborazione dei token vengono condivisi tra FriendlyAI e gli operatori dell’infrastruttura, senza richiedere costi iniziali o impegni minimi di utilizzo.
FriendlyAI gestisce la complessità tecnica dell’intero processo. L’azienda si occupa dell’ottimizzazione dei modelli, della gestione delle pipeline di inferenza e dello stack di distribuzione necessario per garantire prestazioni efficienti. Gli operatori dei data center, invece, contribuiscono esclusivamente con la capacità computazionale, riducendo significativamente il livello di complessità necessario per partecipare al sistema. In questo modo, le organizzazioni che possiedono infrastrutture GPU possono generare ricavi aggiuntivi senza dover sviluppare internamente piattaforme di orchestrazione o sistemi di gestione dell’inferenza.
Per garantire la sicurezza e l’isolamento delle operazioni, la piattaforma utilizza un’architettura basata su container isolati. I carichi di lavoro di inferenza vengono eseguiti all’interno di ambienti containerizzati separati dall’infrastruttura principale dell’operatore. Quando la GPU torna a essere necessaria per le attività interne dell’organizzazione, il container viene automaticamente terminato e le risorse vengono restituite al sistema principale. Questo modello garantisce un livello elevato di sicurezza operativa e impedisce che i carichi di lavoro esterni interferiscano con i processi dell’operatore.
La piattaforma include inoltre una dashboard di monitoraggio in tempo reale, progettata per offrire agli operatori una visione dettagliata delle attività in corso. Attraverso questa interfaccia è possibile visualizzare i modelli attualmente in esecuzione sulle GPU, il numero di token elaborati e i ricavi generati dalle attività di inferenza. Questo livello di trasparenza consente agli operatori di monitorare costantemente l’utilizzo delle risorse e di valutare l’impatto economico della partecipazione alla rete di inferenza.
Il pubblico principale a cui si rivolge Inference Sense comprende tutte le organizzazioni che gestiscono infrastrutture GPU ad alta densità. Questo include fornitori di servizi cloud specializzati in AI, data center dedicati al calcolo ad alte prestazioni, aziende tecnologiche che sviluppano modelli di intelligenza artificiale e istituzioni di ricerca che dispongono di cluster GPU utilizzati in modo discontinuo. In tutti questi contesti, la capacità di monetizzare le risorse inutilizzate può contribuire a migliorare l’efficienza economica delle infrastrutture.
Secondo il CEO Jeon Byeong-gon, la piattaforma rappresenta un tentativo di introdurre nei data center AI una sorta di “catena di montaggio computazionale”, in cui ogni momento di disponibilità delle GPU può essere trasformato in valore economico. L’idea alla base del progetto è che i data center dedicati all’intelligenza artificiale, spesso descritti come “fabbriche di AI”, possano realmente assumere questo ruolo solo quando riescono a generare entrate in modo continuo e non soltanto durante le fasi di addestramento dei modelli.
