Hugging Face ha recentemente presentato Idefics2, un aggiornamento del suo modello di linguaggio visivo introdotto nel 2023. Basato sulla tecnologia originariamente sviluppata da DeepMind, questo nuovo modello offre dimensioni parametriche più ridotte, una licenza aperta e un’OCR migliorata.
Idefics2 è una versione più snella del suo predecessore, con solo 8 miliardi di parametri rispetto ai precedenti 80 miliardi. Tuttavia, nonostante le dimensioni più piccole, promette prestazioni paragonabili ad altri modelli multimodali noti.
Una delle caratteristiche principali di Idefics2 è la sua capacità di manipolare immagini ad alta risoluzione fino a 980 x 980 pixel senza doverle ridimensionare per adattarsi a un rapporto quadrato. Questo è un grande passo avanti nell’elaborazione delle immagini per l’intelligenza artificiale.
Inoltre, le funzionalità di riconoscimento ottico dei caratteri (OCR) sono state potenziate attraverso l’integrazione dei dati di trascrizione del testo nelle immagini o nei documenti. Ciò migliora la capacità di Idefics2 di rispondere a domande su grafici, figure e documenti.
L’architettura del modello è stata semplificata rispetto alla versione precedente, concentrandosi su un’elaborazione più efficiente delle immagini e del testo. Questo permette una maggiore flessibilità e versatilità nelle applicazioni del modello.
Hugging Face ha addestrato Idefics2 utilizzando una varietà di set di dati disponibili gratuitamente, tra cui Mistral-7B-v0.1 e siglip-so400m-patch14-384. Sono stati inclusi dati da documenti web, didascalie di immagini, OCR, testo renderizzato e altro ancora.
Il rilascio di Idefics2 si inserisce nel contesto di numerosi altri modelli multimodali che stanno emergendo nel panorama dell’intelligenza artificiale, dimostrando il crescente interesse e l’innovazione in questo settore in continua evoluzione.