Immagine AI

Apple ha recentemente introdotto FastVLM, un modello linguistico-visivo (VLM) di nuova generazione progettato per affrontare le sfide legate alla latenza nell’elaborazione di immagini ad alta risoluzione. Questo modello rappresenta un significativo passo avanti nell’efficienza dei VLM, combinando velocità, precisione e compatibilità con dispositivi mobili.

Tradizionalmente, l’elaborazione di immagini ad alta risoluzione con VLM comporta un aumento significativo della latenza. Ciò è dovuto all’incremento del numero di token visivi generati dal codificatore visivo, che estende i tempi di pre-elaborazione e il tempo fino alla prima risposta (TTFT) del modello linguistico di grandi dimensioni (LLM). Questa problematica è particolarmente evidente in applicazioni che richiedono interazioni in tempo reale, come assistenti virtuali e analisi di documenti complessi.

Per superare queste limitazioni, Apple ha sviluppato FastVLM, un modello che ottimizza il compromesso tra risoluzione, latenza e accuratezza. Al centro di questa innovazione c’è FastViTHD, un codificatore visivo ibrido progettato per generare un numero ridotto di token visivi anche da immagini ad alta risoluzione, riducendo significativamente i tempi di codifica. Questa architettura consente di raggiungere un equilibrio ottimale tra prestazioni ed efficienza, semplicemente regolando la risoluzione dell’immagine in ingresso, senza la necessità di tecniche complesse come la riduzione dinamica del numero di token.

I test condotti su FastVLM hanno evidenziato risultati notevoli. In particolare, il modello ha mostrato un TTFT 85 volte più veloce rispetto a LLaVA-OneVision, pur mantenendo prestazioni simili o superiori nei principali benchmark come SeedBench, MMMU e DocVQA. Questa efficienza è stata ottenuta utilizzando lo stesso LLM da 0,5 miliardi di parametri e una risoluzione di 1152×1152 pixel. Inoltre, FastVLM ha dimostrato una riduzione significativa delle dimensioni del codificatore visivo, risultando 3,4 volte più compatto rispetto ai modelli precedenti.

FastVLM è stato progettato per essere compatibile con dispositivi Apple, come iPhone, iPad e Mac, sfruttando l’architettura hardware proprietaria per garantire prestazioni ottimali. Il modello e il codice sono disponibili su GitHub, permettendo agli sviluppatori di integrarlo facilmente nelle loro applicazioni. Inoltre, Apple ha rilasciato un’app di dimostrazione per iOS/macOS basata su MLX, che consente agli utenti di testare direttamente le capacità del modello.

Di Fantasy