Nel panorama in continua evoluzione dell’intelligenza artificiale, Hugging Face ha compiuto un passo significativo introducendo modelli di visione-linguaggio (VLM) ottimizzati per dispositivi di uso quotidiano come gli smartphone. Questa innovazione non solo riduce drasticamente le dimensioni dei modelli, ma migliora anche le loro prestazioni, aprendo nuove prospettive per l’implementazione pratica dell’AI.

Il nuovo modello, denominato SmolVLM-256M, richiede meno di un gigabyte di memoria GPU e supera in performance il precedente Idefics 80B, lanciato appena 17 mesi fa, che era 300 volte più grande. Questa riduzione impressionante delle dimensioni, accompagnata da un miglioramento delle capacità, rappresenta una svolta epocale per l’AI.

“Quando abbiamo rilasciato Idefics 80B nell’agosto 2023, siamo stati i primi a open-source un modello video-linguaggio”, ha dichiarato Andrés Marafioti, ingegnere di ricerca in machine learning presso Hugging Face, in un’intervista esclusiva con VentureBeat. “Con una riduzione di 300 volte delle dimensioni e un miglioramento delle prestazioni, SmolVLM rappresenta una svolta nei modelli visione-linguaggio.”

Questa innovazione arriva in un momento cruciale per le aziende che affrontano costi computazionali elevati nell’implementazione di sistemi AI. I nuovi modelli SmolVLM, disponibili nelle varianti da 256M e 500M parametri, elaborano immagini e comprendono contenuti visivi a velocità precedentemente inaccessibili per la loro classe dimensionale.

La versione più piccola elabora 16 esempi al secondo utilizzando solo 15 GB di RAM con una dimensione batch di 64, rendendola particolarmente attraente per le aziende che devono gestire grandi volumi di dati visivi. “Per una media azienda che elabora 1 milione di immagini al mese, questo si traduce in risparmi annuali significativi nei costi di calcolo”, ha affermato Marafioti. “La ridotta impronta di memoria consente alle aziende di utilizzare istanze cloud più economiche, riducendo i costi infrastrutturali.”

Questo sviluppo ha già attirato l’attenzione di grandi player tecnologici. IBM ha collaborato con Hugging Face per integrare il modello da 256M in Docling, il loro software di elaborazione documentale. “Sebbene IBM disponga certamente di risorse computazionali significative, l’utilizzo di modelli più piccoli come questi consente loro di elaborare milioni di documenti in modo efficiente a una frazione del costo”, ha osservato Marafioti.

L’ottimizzazione dei modelli AI per dispositivi comuni come gli smartphone non solo democratizza l’accesso all’intelligenza artificiale avanzata, ma apre anche nuove opportunità per applicazioni in settori come la sanità, l’istruzione e l’industria. Con modelli più piccoli e potenti, le aziende possono ora implementare soluzioni AI direttamente sui dispositivi degli utenti, riducendo la dipendenza da infrastrutture cloud costose e migliorando l’efficienza operativa.

Di Fantasy