Immagine AI

Liquid AI ha appena fatto un passo che potrebbe segnare una svolta concreta: il lancio di LFM2‑VL, una generazione avanzata di modelli fondazionali vision‑language pensata per portare l’intelligenza artificiale direttamente su smartphone, laptop, dispositivi indossabili e sistemi embedded.

Quello che sorprende, a prima vista, è la promessa di due aspetti che spesso si escludono a vicenda: alta velocità di risposta (“low‑latency”) e accuratezza competitiva, il tutto pur mantenendo un profilo hardware leggero e adatto alle risorse limitate dei device mobili.

LFM2‑VL non è un semplice aggiornamento di un modello esistente, ma eredita l’approccio innovativo della sua architettura madre, LFM2, lanciata appena un mese fa e definita “il modello fondazionale on‑device più veloce sul mercato”. Questo grazie al sistema LIV — Linear Input‑Varying — che genera i pesi del modello “al volo” per ogni input, permettendo così adattamenti dinamici e ultra‑rapidi.

La novità di LFM2‑VL è la sua capacità multimodale: gestisce testo e immagini con risoluzioni variabili, grazie a un design modulare che unisce backbone linguistico, encoder visuale (SigLIP2 NaFlex) e un proiettore multimodale con MLP a due strati e “pixel unshuffle” per ridurre la mole di token immagine e aumentare la velocità.

Liquid AI ha pensato a due varianti per soddisfare utilizzi diversi:

  • LFM2‑VL‑450M: un modello ultra‑efficiente con meno di 500 milioni di parametri, perfetto per dispositivi con risorse molto limitate.
  • LFM2‑VL‑1.6B: più robusto, ma sempre sufficientemente compatto da funzionare su dispositivi dotati di una sola GPU.

Entrambi elaborano immagini fino a 512×512 pixel alla loro risoluzione nativa, senza ritagli o sformature. Quando le immagini sono più grandi, il sistema usa una tecnica di patching non sovrapposte e aggiunge una miniatura che garantisce un contesto globale, mantenendo precisione e dettaglio.

I risultati sono impressionanti: Liquid AI afferma di aver raddoppiato la velocità di inferenza GPU rispetto a modelli vision‑language simili, mantenendo benchmark competitivi su test noti.

Il modello LFM2‑VL‑1.6B ha ottenuto ottimi risultati in valutazioni come RealWorldQA (65,23), InfoVQA (58,68) e OCRBench (742), oltre a solidi punteggi in compiti di ragionamento multimodale. In test di inferenza su immagini da 1024×1024 con prompt brevi, si è dimostrato tra i più rapidi della sua categoria:

  • I modelli sono già disponibili su Hugging Face, completi di codice di esempio per fine-tuning su Colab, compatibili con librerie come Hugging Face Transformers e TRL.
  • Sono rilasciati sotto una licenza personalizzata, denominata “LFM1.0”, ispirata ad Apache 2.0 ma non ancora resa pubblica nella sua interezza. L’uso commerciale sarà consentito, con condizioni differenziate in base al fatturato annuale dell’impresa (sopra o sotto 10 milioni di dollari).

Dietro questa tecnologia c’è un team fondato da ex‑ricercatori del MIT‑CSAIL, con l’obiettivo di superare i limiti dei tradizionali transformer, spingendo verso architetture ispirate a sistemi dinamici, elaborazione del segnale e algebra lineare numerica. L’intento è sviluppare modelli generali capaci di gestire testo, video, audio, serie temporali e altri dati sequenziali, mantenendo bassi costi computazionali, adattabilità in tempo reale e memoria contenuta.

A luglio 2025, Liquid AI ha anche lanciato la Liquid Edge AI Platform (LEAP), un SDK cross-platform pensato per aiutare gli sviluppatori a eseguire modelli ridotti su dispositivi mobili e embedded, con modelli già pronti da 300 MB. L’app companion, Apollo, consente esperimenti offline, sottolineando l’impegno verso privacy, bassa latenza e decentralizzazione dell’intelligenza artificiale, riducendo la dipendenza dal cloud.

Liquid AI con LFM2‑VL apre una nuova era per l’intelligenza artificiale su dispositivi mobili: modelli leggeri, rapidi e precisi che guardano — e comprendono — senza costumi hardware complessi. Che si tratti di smartphone, wearable o sistemi embedded, la promessa è chiara: portare un’AI multimodale potente e accessibile direttamente al bordo del dispositivo, con licenze flessibili e strumenti pronti per gli sviluppatori.

Di Fantasy