Adept, una startup conosciuta per il suo contributo allo sviluppo di “agenti di intelligenza artificiale (AI)”, ha recentemente presentato al pubblico un innovativo modello linguistico multimodale (LMM). Questo nuovo modello, chiamato “Fuyu-Heavy”, è stato elogiato per le sue performance impressionanti, dimostrandosi il terzo migliore tra i LMM, seguendo da vicino “GPT4-V” e “Gemini Ultra”.
Secondo quanto riportato dal Mark Tech Post, Adept ha sviluppato Fuyu-Heavy con l’obiettivo di servire gli agenti digitali. Questa versione più compatta del LMM è stata appositamente progettata per la creazione di assistenti AI intelligenti, sfruttando software e strumenti API. Ciò che distingue Fuyu-Heavy è la sua interfaccia utente grafica (GUI) e l’uso di dati di allenamento sintetizzati, piuttosto che una vasta gamma di argomenti.
Il modello “Fuyu-8B”, destinato all’integrazione con agenti AI e chatbot, è stato ampiamente migliorato e ottimizzato. Questo modello è in grado di elaborare immagini di qualsiasi risoluzione, comprendere grafici e diagrammi, rispondere a domande in linguaggio naturale basate sull’interfaccia utente e fornire una dettagliata identificazione degli oggetti nelle immagini.
Adept sostiene che, nonostante le dimensioni più contenute rispetto ad altri modelli, il Fuyu-Heavy ha dimostrato eccellenti performance in vari benchmark. Nonostante la sua semplicità, il modello ha ottenuto risultati notevoli in termini di comprensione delle immagini, risposte visive alle domande e generazione di sottotitoli naturali per le immagini. Inoltre, è in grado di elaborare immagini di grandi dimensioni in soli 100 millisecondi (ms). Nel benchmark MMMU, utilizzato per valutare solo il testo, il modello ha raggiunto prestazioni eccezionali, eguagliando o superando modelli più grandi.
In particolare, nel benchmark MMLU, il Fuyu-Heavy si è classificato come il terzo miglior LMM al mondo, superato solo da GPT4-V e Gemini Ultra, modelli che vantano dimensioni da 10 a 20 volte superiori. Questo posiziona il Fuyu-Heavy tra i migliori LMM disponibili attualmente sul mercato.
Un altro aspetto interessante è che Adept ha rilasciato la versione più piccola del modello, denominata “Fuyu-8B”, come software open source, contribuendo così alla comunità globale dell’IA.
Da notare che Microsoft aveva già presentato in precedenza “Phi-1.5”, un LMM capace di comprendere e rispondere sia a immagini che a testo, nel novembre dell’anno scorso. Sorprendentemente, questo modello leggero contava solamente 1,3 miliardi di parametri (1,3B) ma garantiva risultati paragonabili agli altri LMM, offrendo notevoli vantaggi in termini di costi e tempi.