NVIDIA ha recentemente presentato Eagle 2.5, un modello di intelligenza artificiale progettato per comprendere simultaneamente immagini, video e testo, affrontando le sfide dei contesti lunghi. A differenza dei modelli tradizionali, che spesso degradano le prestazioni con l’aumento della lunghezza dell’input, Eagle 2.5 migliora effettivamente le sue capacità man mano che il contesto diventa più esteso. Questo risultato è ottenuto senza la necessità di modelli di dimensioni enormi, come GPT-4o, ma con un modello relativamente compatto da 8 miliardi di parametri.
Eagle 2.5 introduce due tecniche di apprendimento avanzate per gestire efficacemente i contesti lunghi:
- Information-First Sampling: Questa strategia preserva le informazioni visive e semantiche essenziali. Ad esempio, la tecnica “Image Area Preservation” (IAP) riduce al minimo la distorsione delle proporzioni, mantenendo oltre il 60% dell’immagine originale. Inoltre, l'”Automatic Degraded Sampling” (ADS) regola dinamicamente le informazioni visive e testuali in base alla lunghezza del contesto di input, ottimizzando l’uso della memoria e migliorando la comprensione complessiva.
- Progressive Post-Training: Questa metodologia prevede un’espansione graduale della lunghezza del contesto durante la fase di addestramento, da 32K a 128K token. Questo approccio evita l’overfitting a una lunghezza specifica e migliora la capacità del modello di gestire input di diverse dimensioni.
Nonostante la sua dimensione relativamente ridotta, Eagle 2.5 ha ottenuto risultati notevoli in vari benchmark multimodali. Ad esempio, nel benchmark Video-MME con 512 fotogrammi di input, ha raggiunto un punteggio del 72,4%, pari a quello di modelli molto più grandi come GPT-4o e Qwen2.5-VL-72B. Inoltre, ha ottenuto 74,8 punti nel MV Benchmark, 77,6 nel MLVU e 66,4 nel Long Video Benchmark, dimostrando eccellenti capacità di comprensione dei video lunghi. Anche nei benchmark delle immagini, ha mostrato prestazioni complessive eccellenti, con 94,1 punti in DocVQA, 87,5 in ChartQA e 80,4 in InfoVQA.
Per addestrare Eagle 2.5, NVIDIA ha sviluppato il dataset Eagle-Video-110K, che integra annotazioni sia a livello di storia che di clip. Questo dataset è stato creato utilizzando due approcci: un metodo top-down, in cui GPT-4 genera spiegazioni dettagliate e coppie domanda-risposta basate sulle informazioni dei capitoli del video organizzate dagli esseri umani, e un approccio bottom-up, che taglia le clip video in brevi blocchi, consentendo a GPT-4 di creare automaticamente domande e risposte e aggiunge informazioni temporali e contestuali per aiutare a comprendere il contenuto in modo più accurato.
Il dataset è stato progettato per essere diversificato, evitando la ripetizione di video simili e includendo solo video nuovi e utili provenienti da varie fonti, come InternVid, Shot2Story e VidChapters. Grazie a questa varietà, Eagle 2.5 è stato in grado di sviluppare la capacità di comprendere il flusso della storia nei video lunghi e di cogliere le informazioni importanti in ogni scena senza perderle.