Liquid AI presenta LFM2.5-8B-A1B: modello MoE per agenti AI con contesto da 128.000 token e inferenza locale

Liquid AI ha annunciato LFM2.5-8B-A1B, una nuova generazione di modelli linguistici progettata specificamente per applicazioni agentiche, utilizzo di strumenti esterni e inferenza locale su hardware di consumo. Il modello adotta un’architettura Mixture of Experts (MoE) che combina un totale di 8,3 miliardi di parametri con appena 1,5 miliardi di parametri attivi durante l’esecuzione, consentendo di ridurre significativamente il carico computazionale senza compromettere le prestazioni.

La nuova versione introduce per la prima volta una finestra di contesto da 128.000 token, quadruplicando la capacità del modello precedente e ampliando notevolmente le possibilità di analisi di documenti complessi, conversazioni estese e attività di ragionamento su grandi quantità di informazioni. Parallelamente, il volume dei dati utilizzati nel preaddestramento è cresciuto da 12 a 38 trilioni di token, contribuendo a migliorare la qualità dell’elaborazione e delle capacità inferenziali.

Dal punto di vista architetturale, LFM2.5 combina 24 livelli, costituiti da blocchi convoluzionali LIV a doppio gate e livelli di attenzione Grouped Query Attention (GQA). L’obiettivo è ottenere un equilibrio tra velocità di esecuzione, consumo di memoria e capacità di ragionamento. A differenza della generazione precedente, il modello è stato sviluppato come sistema orientato esplicitamente al reasoning, eseguendo passaggi di ragionamento prima della produzione della risposta finale e sfruttando la natura sparsa dell’architettura MoE per contenere i costi computazionali aggiuntivi.

Un altro elemento centrale riguarda il supporto multilingue. Il vocabolario è stato ampliato da 65.536 a 128.000 token, migliorando la gestione di lingue con sistemi di scrittura differenti e aumentando l’efficienza di tokenizzazione per idiomi non latini come arabo, hindi, thailandese, vietnamita e indonesiano. Per ottenere questo risultato, Liquid AI ha esteso il tokenizer esistente senza dover riaddestrare completamente il modello, introducendo nuovi token e riallineando gli embedding attraverso procedure di adattamento mirate.

L’azienda ha inoltre applicato tecniche di reinforcement learning per affrontare due problemi storicamente critici nei modelli compatti: le allucinazioni e i fenomeni di ripetizione durante le inferenze lunghe. Sono stati introdotti meccanismi che riducono la probabilità di entrare in cicli ripetitivi e sistemi di ricompensa progettati per incentivare il modello a dichiarare l’incertezza quando non dispone di informazioni sufficienti, invece di generare risposte potenzialmente errate.

I miglioramenti emergono anche nei benchmark. Le prestazioni nella soppressione delle allucinazioni registrano un incremento particolarmente marcato, mentre crescono in modo significativo anche le capacità di seguire istruzioni, risolvere problemi matematici e affrontare compiti specialistici. Secondo i dati condivisi da Liquid AI, il modello raggiunge livelli comparabili a sistemi molto più grandi pur mantenendo un numero di parametri attivi notevolmente inferiore.

LFM2.5 è stato progettato per integrarsi nativamente con strumenti esterni tramite function calling in Python e supporta la conversione delle chiamate in formato JSON per l’interoperabilità con applicazioni e piattaforme differenti. Questa caratteristica lo rende particolarmente adatto alla realizzazione di agenti autonomi in grado di interagire con software, database e servizi esterni.

Il modello rappresenta inoltre la base di LocalCowork, l’ambiente open source sviluppato da Liquid AI per l’esecuzione locale di agenti desktop. Il sistema opera senza servizi cloud esterni, integrando server MCP e decine di strumenti all’interno di un’unica installazione, con l’obiettivo di mantenere i dati degli utenti completamente sul dispositivo.

Anche sul piano delle prestazioni hardware i risultati sono rilevanti. Il modello può funzionare con meno di 6 GB di memoria, raggiungendo velocità elevate sia su piattaforme desktop sia su dispositivi mobili. LFM2.5 supporta fin dal lancio framework diffusi come llama.cpp, MLX, vLLM, SGLang, ONNX e LEAP ed è compatibile con ecosistemi Apple, AMD, Intel, Qualcomm e NVIDIA, confermando la strategia di Liquid AI orientata alla distribuzione di modelli avanzati direttamente su hardware locale anziché esclusivamente in infrastrutture cloud.

Liquid AI presenta LFM2.5-8B-A1B: modello MoE per agenti AI con contesto da 128.000 token e inferenza locale

DiFantasy

Di Fantasy

Articoli correlati

Google ricostruisce con l’intelligenza artificiale il gol più bello di Pelé

Google ritira la generazione di immagini AI da Google Earth dopo un solo giorno

Un numero WhatsApp nazionale per richiedere i taxi attraverso l’intelligenza artificiale

Ultimi Post

Google ricostruisce con l’intelligenza artificiale il gol più bello di Pelé

Google ritira la generazione di immagini AI da Google Earth dopo un solo giorno

Un numero WhatsApp nazionale per richiedere i taxi attraverso l’intelligenza artificiale

I medici generati dall’intelligenza artificiale diffondono false informazioni sanitarie su TikTok