In un mondo dominato dall’hype dei chatbot, Apple sceglie la discrezione. Il 2 settembre 2025, senza clamore mediatico, l’azienda ha pubblicato su Hugging Face due nuovi modelli – FastVLM e MobileCLIP2 – progettati per offrire efficienza e prestazioni su dispositivi locali, senza sacrificare la potenza dell’intelligenza artificiale.
L’annuncio è stato sottolineato da Clem Delangue, cofondatore di Hugging Face, che ha lodato l’efficienza dei modelli: fino a 85 volte più veloci e 3,4 volte più compatti rispetto a soluzioni precedenti. Un risultato che apre la porta a applicazioni VLM (vision-language model) in tempo reale, anche direttamente nel browser. “Se pensate che Apple non stia facendo niente nell’AI, vi state lasciando ingannare dall’hype dei chatbot,” ha commentato Delangue.
FastVLM è il frutto della ricerca presentata al CVPR 2025. Introduce FastViTHD, un encoder visivo ibrido che riduce notevolmente i token generati e velocizza l’elaborazione delle immagini ad alta risoluzione. La versione più piccola, FastVLM-0.5B, batte LLaVA-OneVision‑0.5B in efficienza, offrendo un Time-to-First-Token 85 volte più rapido e un encoder 3,4 volte più leggero.
FastVLM è oggi disponibile in diverse varianti – 0.5B, 1.5B e 7B parametri – tutte aggiornate da pochi giorni e accessibili su Hugging Face.
MobileCLIP2 è l’evoluzione dei modelli efficienti per il testo e le immagini, presentata in un paper pubblicato ad agosto 2025. La tecnica alla base è il “multi-modal reinforced training”: una modalità di training che sfrutta dataset rinforzati per trasferire conoscenza da modelli più grandi, mantenendo alta l’efficienza.
Una delle versioni più interessanti, MobileCLIP2‑S4, eguaglia l’accuratezza zero-shot del modello SigLIP‑S0 400M/14 pur essendo 2 volte più piccolo e 2,5 volte più veloce. Anche la variante S0 offre prestazioni confrontabili con il ViT‑B/16 di OpenAI, ma con 4,8× velocità superiore e 2,8× dimensioni inferiori.
Apple sembra puntare con decisione su AI efficienti e utilizzabili direttamente sui device – nel rispetto della privacy e delle risorse. I modelli come FastVLM e MobileCLIP2 suggeriscono un approccio che valorizza il controllo locale e latenza minima, e che può abilitare funzioni come didascalie video in tempo reale all’interno del browser.
È un cambio di paradigma rispetto alla narrativa dominante: non più grandi modelli cloud e hype costante, ma strumenti snelli, potenti e pronti a integrarsi nel quotidiano. Come ha sottolineato Delangue, chi ignorasse questa direzione si troverebbe “accecato” dall’entusiasmo per i chatbot.