Immagine AI

Negli ultimi anni l’intelligenza artificiale ha conosciuto una diffusione crescente nelle applicazioni aziendali, ma il modello dominante di utilizzo dei sistemi AI continua a basarsi su infrastrutture cloud centralizzate. In molti settori industriali questa architettura comporta vantaggi significativi in termini di scalabilità e aggiornamento dei modelli, ma presenta anche limitazioni importanti quando si tratta di gestire dati sensibili. Ambiti come la finanza, la sanità, i servizi legali o le infrastrutture governative richiedono infatti livelli molto elevati di protezione dei dati e spesso non consentono l’invio di informazioni riservate verso server esterni. Questa esigenza sta favorendo lo sviluppo di una nuova categoria di sistemi di intelligenza artificiale progettati per operare completamente in locale, direttamente sui dispositivi dell’utente.

In questo contesto si inserisce il lavoro di Liquid AI, azienda specializzata nello sviluppo di modelli di intelligenza artificiale compatti e ottimizzati per l’esecuzione locale. La società ha recentemente presentato un nuovo modello denominato LFM2-24B-A2B insieme a un’applicazione desktop chiamata LocalCowork, progettata per consentire l’utilizzo di agenti AI direttamente su un computer portatile senza la necessità di utilizzare API cloud o infrastrutture remote. Il sistema rappresenta un esempio concreto di architettura AI completamente autonoma, in cui il modello linguistico, i dati e gli strumenti operativi vengono eseguiti all’interno dello stesso dispositivo.

LocalCowork è concepito come un agente AI desktop open source in grado di interagire con il sistema operativo e con diversi strumenti software locali. L’intero processo di elaborazione viene eseguito sul computer dell’utente, consentendo alle organizzazioni di mantenere il pieno controllo sui propri dati. Questa architettura elimina la necessità di trasferire informazioni sensibili verso server esterni e consente di soddisfare requisiti normativi particolarmente stringenti, come quelli previsti in molti ambienti finanziari e sanitari.

Il sistema è progettato per eseguire una vasta gamma di operazioni attraverso strumenti compatibili con il Model Context Protocol (MCP), uno standard emergente utilizzato per collegare modelli linguistici a strumenti software esterni. Attraverso questa integrazione l’agente può esplorare il file system del computer, cercare documenti, analizzare dati e attivare strumenti specifici per svolgere determinate operazioni. Tra le funzionalità supportate vi sono l’analisi dei documenti mediante tecnologia OCR, il confronto tra contenuti di contratti, la ricerca di informazioni nei file locali e la generazione automatica di report.

Oltre alle funzioni di produttività, il sistema integra anche strumenti progettati per il controllo della sicurezza informatica. LocalCowork è in grado di eseguire scansioni dei file per individuare possibili problemi di sicurezza, come la presenza accidentale di chiavi API esposte o altri dati sensibili all’interno dei documenti. Il sistema supporta inoltre interrogazioni sulle informazioni del sistema operativo e consente la generazione automatica di registri di audit e report di conformità, strumenti particolarmente importanti negli ambienti aziendali regolamentati.

Una caratteristica fondamentale della piattaforma riguarda la gestione della tracciabilità delle operazioni. Tutte le chiamate agli strumenti vengono registrate automaticamente nei registri di controllo locali, creando un sistema di audit completo che consente di verificare ogni operazione eseguita dall’agente AI. Questa funzionalità è particolarmente importante per le organizzazioni che devono rispettare normative di sicurezza e governance dei dati, poiché consente di documentare in modo preciso le attività svolte dal sistema.

Il cuore tecnologico del sistema è rappresentato dal modello LFM2-24B-A2B, sviluppato secondo un’architettura basata su Mixture of Experts (MoE) sparsa. Questo approccio consente di combinare più sottoreti specializzate all’interno dello stesso modello, attivando soltanto una parte dei parametri durante l’esecuzione. Il modello dispone complessivamente di circa 24 miliardi di parametri, ma durante l’inferenza vengono attivati soltanto circa 2 miliardi. Questa struttura consente di mantenere un elevato livello di conoscenza del modello riducendo al tempo stesso i costi computazionali e la latenza delle operazioni.

L’architettura MoE rappresenta una delle tecniche più promettenti per rendere i modelli linguistici avanzati utilizzabili anche su hardware relativamente compatto. Attivando solo una parte delle reti specializzate per ogni operazione, il modello riesce a mantenere prestazioni elevate senza richiedere le risorse computazionali normalmente necessarie per modelli di dimensioni comparabili.

I test di prestazione del sistema sono stati eseguiti su una piattaforma hardware basata su Apple M4 Max, dotata di 36 GB di memoria unificata e una GPU con 32 core. In questa configurazione il modello ha richiesto circa 14,5 GB di memoria per essere eseguito. L’ambiente di inferenza utilizzato era basato su llama-server, con l’attivazione della tecnologia Flash Attention, una tecnica di ottimizzazione che consente di accelerare significativamente l’elaborazione delle sequenze nei modelli transformer.

I risultati delle misurazioni indicano che il tempo medio necessario per selezionare lo strumento appropriato per una determinata operazione è stato di circa 385 millisecondi. Questa velocità consente all’agente di attivare strumenti con un ritardo inferiore al secondo, permettendo un’interazione fluida tra utente e sistema anche durante l’esecuzione di operazioni complesse.

Per valutare le capacità operative del modello, i ricercatori hanno condotto una serie di test su scenari realistici. L’esperimento ha incluso cento attività che richiedevano la selezione di un singolo strumento e cinquanta flussi di lavoro multi-step composti da più operazioni consecutive. I risultati hanno mostrato che l’accuratezza nella selezione dello strumento corretto in un singolo passaggio raggiungeva circa l’80%, mentre il tasso di completamento dei flussi multi-step era pari al 26%.

Uno dei test più rappresentativi simulava un tipico scenario aziendale di gestione delle spese. In questo workflow il sistema iniziava analizzando una cartella contenente immagini di ricevute e utilizzava l’OCR per estrarre il testo dai documenti. Successivamente identificava informazioni come il nome del venditore, la data della transazione e l’importo pagato. Il sistema eseguiva quindi controlli per individuare eventuali duplicati e organizzava i dati estratti in formato CSV. Nella fase finale il modello individuava possibili anomalie nelle transazioni e generava un report di liquidazione in formato PDF.

Processi di questo tipo sono particolarmente complessi per i sistemi ad agenti, poiché richiedono la selezione ripetuta degli strumenti appropriati in base al contesto operativo. Durante i test il modello è stato in grado di completare le diverse fasi del workflow con tempi di risposta sufficientemente rapidi da consentire agli utenti di ricevere feedback quasi immediato.

Secondo i ricercatori di Liquid AI, il sistema LFM2-24B-A2B dimostra prestazioni migliori quando viene utilizzato come coordinatore di strumenti, piuttosto che come agente completamente autonomo incaricato di eseguire lunghe catene di operazioni senza supervisione umana. In questo modello operativo l’utente inserisce una richiesta iniziale e l’agente suggerisce lo strumento più adatto per completare l’attività. L’utente può quindi confermare o modificare la proposta, eseguire lo strumento e analizzare i risultati prima di passare alla fase successiva.

Questo approccio collaborativo riduce il rischio di errori e consente agli utenti di intervenire rapidamente nel caso in cui il sistema selezioni uno strumento non appropriato. Rispetto ai modelli completamente autonomi, che cercano di eseguire interi workflow senza supervisione, questa strategia tende a ridurre l’impatto negativo di eventuali errori e risulta più adatta agli ambienti di lavoro reali.

Il progetto LocalCowork è stato reso disponibile come software open source e può essere consultato pubblicamente su GitHub. Secondo Liquid AI, l’applicazione non rappresenta soltanto una dimostrazione tecnologica, ma una vera applicazione desktop completa, in grado di analizzare file reali e interagire con strumenti software locali.

Lo sviluppo di sistemi come LocalCowork riflette una tendenza crescente verso l’edge AI, ovvero l’esecuzione dei modelli di intelligenza artificiale direttamente sui dispositivi locali anziché su infrastrutture cloud centralizzate. Questa evoluzione potrebbe avere un impatto significativo nei settori in cui la protezione dei dati e la conformità normativa rappresentano requisiti fondamentali. Con il miglioramento dell’efficienza dei modelli e delle architetture hardware, l’intelligenza artificiale locale potrebbe diventare una componente sempre più importante delle infrastrutture digitali aziendali.

Di Fantasy