S2-Wrapper: ottimizzazione della visione multiscala nell’addestramento di modelli AI

DiFantasy

Mar 27, 2024

È stato dimostrato che le prestazioni dei modelli di intelligenza artificiale visiva (AI) non dipendono solo dalle loro dimensioni, ma anche dalla diversità e dalla dimensione del set di dati appreso. Ricercatori dell’UC Berkeley e di Microsoft hanno sviluppato modelli di visione di piccole dimensioni preaddestrati su varie scale di immagine, successivamente integrati in modelli multimodali di grandi dimensioni come “GPT-4V” e “Gemini”.

Utilizzando il metodo “S2-Wrapper”, che ridimensiona un modello di visione preaddestrato su diverse scale di immagine senza modificare i parametri, hanno addestrato con successo un modello multimodale con 13 miliardi di parametri chiamato “LLaVA-1.5”.

I risultati hanno dimostrato che questo metodo ha superato i modelli più grandi anche con meno risorse computazionali. Nel test V*, il modello LLaVA-1.5 ha superato modelli commerciali come Gemini Pro e GPT-4V nella comprensione dei dettagli visivi. In particolare, il modello LLaVA-1.5 con wrapper S2 ha migliorato il tasso di successo nelle attività di manipolazione dei robot del 20%.

Questo studio suggerisce che sfruttare la natura multiscala dei dati visivi può portare a prestazioni simili o addirittura migliori rispetto ai grandi modelli multimodali. Recentemente, anche Apple ha pubblicato uno studio in cui ha superato modelli come GPT-4V e Gemini Ultra con un modello di soli 30 miliardi di parametri, dimostrando che la scelta del codificatore di immagini e altri fattori influenzano significativamente le prestazioni.

S2-Wrapper: ottimizzazione della visione multiscala nell’addestramento di modelli AI

DiFantasy

Di Fantasy

Articoli correlati

Golden Planet lancia Genova AI, un agente intelligente per riassumere e analizzare i contenuti video educativi

Neuroscienze AI: la difficoltà del compito guida l’immagazzinamento della memoria motoria nel cervello

OpenAI esplora i chip AI di Google

You missed

Golden Planet lancia Genova AI, un agente intelligente per riassumere e analizzare i contenuti video educativi

Neuroscienze AI: la difficoltà del compito guida l’immagazzinamento della memoria motoria nel cervello

OpenAI esplora i chip AI di Google

L’esperienza AI dei tifosi in Premier League grazie alla partnership di Microsoft