NVIDIA ha recentemente presentato NVILA, una nuova famiglia di modelli di linguaggio visivo aperti, progettati per ottimizzare l’accuratezza e l’efficienza nell’elaborazione di immagini e video. Questa innovazione ha portato a una riduzione dei costi di addestramento di 4,5 volte e della memoria necessaria per il fine-tuning di 3,4 volte, oltre a diminuire la latenza per il pre-filling e il decoding di quasi il doppio, rispetto al modello LLaVa OneVision.

I risultati dei benchmark indicano che NVILA supera GPT-4o Mini in test video e offre prestazioni competitive con modelli come GPT-4o, Sonnet 3.5 e Gemini 1.5 Pro. In particolare, NVILA ha mostrato un leggero vantaggio rispetto al modello Llama 3.2. Tuttavia, al momento, NVIDIA non ha ancora reso disponibile il modello su piattaforme come Hugging Face, ma ha annunciato l’intenzione di condividere presto codice e modelli per facilitare la riproducibilità.

L’addestramento di un modello di linguaggio visivo (VLM) è notoriamente costoso, richiedendo circa 400 giorni di GPU per un VLM da 7 miliardi di parametri. Inoltre, il fine-tuning di tali modelli è intensivo in termini di memoria, con un consumo che supera i 64 GB di memoria GPU per un VLM da 7 miliardi di parametri. Per affrontare queste sfide, NVIDIA ha adottato una tecnica denominata “scala e poi comprimi”, che bilancia accuratezza ed efficienza nei VLM. Invece di ridurre le dimensioni di foto e video, NVILA utilizza immagini ad alta risoluzione e più fotogrammi da un video, garantendo che nessun dettaglio venga perso. Successivamente, il modello riduce la dimensione degli input comprimendo le informazioni visive in un numero minore di token, raggruppando i pixel e mantenendo le informazioni essenziali.

Ad esempio, raddoppiare la risoluzione di un’immagine raddoppia il numero di token visivi, aumentando i costi di addestramento e inferenza di oltre 2 volte, poiché l’attenzione automatica scala quadraticamente con il numero di token. NVILA riduce questo costo comprimendo i token spaziali/temporali. NVIDIA ha anche illustrato alcune demo del modello, che è stato in grado di fornire informazioni da più query basate su un’immagine e un video, con output confrontati con il modello VILA 1.5 precedentemente rilasciato.

Inoltre, NVIDIA ha dettagliato l’uso di altre tecniche, come il Dynamic-S2 per la scalabilità, il pruning del dataset basato su DeltaLoss e la quantizzazione utilizzando la precisione FP8. Tutte queste tecniche sono state applicate a un modello con 8 miliardi di parametri. Per una comprensione approfondita di come queste tecniche supportino il modello, è possibile consultare il paper disponibile su Arxiv.

Di Fantasy