Meta ha lanciato un nuovo modello multimodale immagine-testo chiamato Llama3-V, basato su Llama3-V. Questo modello ha ottenuto risultati paragonabili a modelli giganteschi come “GPT-4V”, “Gemini Ultra” e “Claude 3 Opus”, che sono più di 100 volte più grandi.
Secondo il report di Mark Tech Post, Llama3-V è stato costruito sul modello di visione “Llama3 8B”, che conta 8 miliardi di parametri. Questo modello utilizza il modello di codifica visiva “SigLiP”, integrato nell’esistente Rama3 8B, per comprendere informazioni multimodali. SigLiP suddivide l’immagine in patch, le codifica e le combina con il testo tramite auto-attenzione, quindi le trasmette al modello Llama3 8B.
Llama3-V utilizza un metodo di “fusione tardiva”, combinando input testuali e visivi in modelli separati e unendo le loro codifiche per l’inferenza. Questo approccio, sebbene efficace, può limitare l’integrazione delle informazioni tra le modalità.
Tuttavia, Meta ha dichiarato che Llama3-V ha migliorato l’utilizzo della GPU e l’efficienza delle risorse, grazie a un meccanismo di caching che precalcola gli incorporamenti di immagini. Sigrip, inoltre, afferma che le sue dimensioni ridotte permettono una gestione efficiente delle risorse, riducendo i costi di formazione a meno di 500 dollari.
Nei benchmark, Llama3-V ha ottenuto prestazioni migliorate del 10-20% rispetto al modello di linguaggio di visione open source “Llava”. Inoltre, ha registrato prestazioni simili a modelli giganteschi come GPT-4V, Gemini Ultra e Claude 3 Opus, dimostrando efficienza e competitività nonostante le sue dimensioni ridotte.