Immagine AI

Il focus AI si sposta sempre più dai data center centralizzati ai dispositivi edge: smartphone, laptop, wearable e sistemi industriali. In questo contesto, l’azienda Liquid AI, nota per le sue innovative “reti neurali liquide”, ha compiuto un passo decisivo presentando un nuovo Modello Visione-Linguaggio (VLM) che unisce potenza e leggerezza: LFM2-VL-3B. Questo modello da 3 miliardi di parametri è progettato specificamente per operare in ambienti con risorse limitate, mantenendo un’accuratezza competitiva con i modelli più grandi.

LFM2-VL-3B rappresenta un’espansione dei precedenti modelli di Liquid AI e si distingue per la sua capacità di elaborare sia input visivi che testuali per produrre output testuali, il tutto con una velocità di elaborazione intrinsecamente rapida, caratteristica dell’architettura LFM2. Il modello è stato rilasciato come open source sulle piattaforme LEAP e Hugging Face, rendendolo accessibile a sviluppatori e aziende.

La struttura di LFM2-VL-3B è segmentata in tre componenti chiave, ognuno ottimizzato per l’efficienza sui dispositivi edge:

  • Torre Linguistica (Language Tower): Basata su LFM2-2.6B, utilizza una struttura ibrida che combina reti convoluzionali e meccanismi di attention, garantendo una robusta comprensione del testo.
  • Torre di Visione (Vision Tower): Utilizza il modello SigLIP2 NaFlex da 400 milioni di parametri. Un punto di forza cruciale di questa scelta è la sua capacità di mantenere inalterato il rapporto d’aspetto dell’immagine, evitando distorsioni e consentendo una percezione visiva molto più dettagliata e accurata.
  • Proiettore (Projector): È il “collante” che integra i dati visivi nello spazio linguistico. Utilizza una MLP a due strati e la tecnica di pixel unshuffle per comprimere i token di immagine, consentendo agli utenti di regolare l’utilizzo dei token visivi senza necessità di ri-addestramento, ottimizzando così la velocità di inferenza e la qualità dell’elaborazione.

Per garantire che LFM2-VL-3B possa gestire immagini complesse anche su hardware modesto, il suo codificatore può elaborare risoluzioni fino a 512×512. Le immagini di dimensioni maggiori vengono gestite suddividendole in patch non sovrapposte da 512×512. Un percorso di thumbnail dedicato è utilizzato per preservare la conoscenza globale dell’immagine anche quando viene suddivisa in patch, un elemento fondamentale per il riconoscimento visivo contestuale.

Gli utenti possono personalizzare il rapporto tra velocità di elaborazione e qualità dell’immagine regolando il numero minimo e massimo di token di immagine e le opzioni di tiling. Ad esempio, un’immagine di 1000×3000 pixel viene compressa in soli 1020 token, garantendo un throughput elevato.

Il modello è stato addestrato attraverso una strategia di apprendimento graduale, che include un pre-addestramento intermedio per bilanciare testo e immagine, seguito da un Supervised Fine-Tuning (SFT) per affinare la comprensione visiva. LFM2-VL-3B supporta la comprensione visiva in una vasta gamma di lingue, inclusi italiano, inglese, giapponese, francese, spagnolo, tedesco, portoghese, arabo e coreano, dimostrando una notevole versatilità multilingue.

Nei principali benchmark (MM-IFEval, RealWorldQA, MMBench e POPE), LFM2-VL-3B ha dimostrato prestazioni altamente competitive tra i VLM open source leggeri. Parallelamente, le sue capacità di comprensione linguistica sono risultate simili a quelle del modello di base LFM2-2.6B.

Ciò che rende LFM2-VL-3B particolarmente rivoluzionario è la sua applicabilità: la sua architettura riduce notevolmente il carico computazionale e i requisiti di memoria, essenziali per i dispositivi di piccole dimensioni. La capacità di comprimere e regolare i token di immagine garantisce velocità di elaborazione prevedibili, un fattore critico per le applicazioni in tempo reale.

Liquid AI ha anche rilasciato un build GGUF, consentendo l’esecuzione del modello su dispositivi locali e aprendo la strada al suo utilizzo in ambienti che richiedono un’elaborazione in loco e una rigorosa gestione dei dati, come la robotica, le applicazioni mobili e i sistemi di ispezione industriale. LFM2-VL-3B incarna il futuro dell’AI on-device, offrendo intelligenza avanzata senza la necessità di dipendere da potenti infrastrutture cloud.

Di Fantasy