Perplexity ha presentato a Computex 2026 una nuova architettura di inferenza ibrida progettata per distribuire dinamicamente i carichi di lavoro dell’intelligenza artificiale tra il dispositivo dell’utente e l’infrastruttura cloud. Il sistema è stato sviluppato per consentire agli agenti AI di sfruttare contemporaneamente le risorse disponibili sul PC e quelle dei modelli ospitati nei data center, ottimizzando prestazioni, costi operativi e gestione dei dati sensibili.
La tecnologia introduce un meccanismo di orchestrazione che valuta in tempo reale la complessità delle richieste e le capacità hardware del dispositivo utilizzato. Le operazioni che richiedono accesso a dati riservati o che possono essere gestite da modelli più leggeri vengono elaborate direttamente sul computer dell’utente, mentre i compiti che necessitano di modelli di dimensioni superiori o di maggiore potenza di calcolo vengono trasferiti automaticamente al cloud. Questo approccio consente di mantenere in locale documenti, informazioni personali e dati aziendali senza rinunciare alle capacità offerte dai modelli più avanzati disponibili nei data center.
Secondo quanto illustrato durante la manifestazione, il sistema è stato integrato nell’applicazione Perplexity per Windows e sfrutta in modo specifico le funzionalità offerte dalle più recenti piattaforme Intel dedicate all’intelligenza artificiale. L’infrastruttura è in grado di suddividere le attività tra modelli eseguiti localmente e modelli remoti, creando un flusso di elaborazione continuo che appare trasparente all’utente finale.
L’architettura è stata progettata per supportare la crescente diffusione degli agenti AI autonomi, sistemi che non si limitano a generare risposte testuali ma sono in grado di eseguire operazioni complesse, analizzare documenti, accedere a informazioni contestuali e completare attività articolate. In questo scenario, la possibilità di distribuire l’inferenza tra hardware locale e cloud permette di ridurre la latenza nelle operazioni più frequenti e, allo stesso tempo, di accedere a modelli più potenti quando necessario.
La soluzione presentata da Perplexity si inserisce inoltre nel più ampio percorso evolutivo dell’ecosistema AI PC, caratterizzato dall’integrazione di CPU, GPU e acceleratori neurali dedicati all’esecuzione locale di modelli linguistici e agenti intelligenti. In questo contesto, l’inferenza ibrida rappresenta un modello operativo che consente di sfruttare le risorse presenti sul dispositivo senza rinunciare alla scalabilità e alle capacità computazionali offerte dal cloud.
L’obiettivo dichiarato è consentire agli utenti di utilizzare agenti AI più avanzati mantenendo il controllo sui dati più sensibili e riducendo la dipendenza da elaborazioni completamente remote. La piattaforma dimostra come le future applicazioni basate su agenti possano operare in modo distribuito, utilizzando in maniera coordinata sia l’hardware locale sia le infrastrutture cloud per eseguire attività sempre più complesse.
