L’organizzazione LMSYS ha lanciato oggi la sua nuova “Arena multimodale”, una classifica che confronta le prestazioni dei modelli di intelligenza artificiale nelle attività visive. In sole due settimane, l’arena ha raccolto oltre 17.000 voti da utenti in più di 60 lingue, offrendo uno sguardo sullo stato attuale delle capacità di elaborazione visiva dell’IA.
Il modello GPT-4o di OpenAI si è piazzato al primo posto nell’arena multimodale, seguito da vicino da Claude 3.5 Sonnet di Anthropic e Gemini 1.5 Pro di Google. Questa classifica evidenzia la forte competizione tra i giganti della tecnologia per il dominio nel campo in rapida evoluzione dell’intelligenza artificiale multimodale.
In particolare, il modello open source LLaVA-v1.6-34B ha ottenuto punteggi paragonabili a quelli di alcuni modelli proprietari, come Claude 3 Haiku. Questo suggerisce un possibile livellamento del campo di gioco per ricercatori e aziende più piccole, democratizzando le avanzate capacità dell’IA.
L’arena copre una vasta gamma di attività, dalle didascalie delle immagini alla risoluzione di problemi matematici, fornendo una panoramica completa delle capacità visive di ogni modello. Tuttavia, mentre offre preziose preferenze degli utenti, misura principalmente la percezione soggettiva anziché la precisione oggettiva.
Un quadro più critico emerge dal benchmark CharXiv, introdotto di recente dai ricercatori dell’Università di Princeton, che valuta le prestazioni dell’IA nella comprensione di grafici scientifici. Qui, i risultati mostrano significative limitazioni, con il miglior modello raggiungendo solo il 47,1% di accuratezza, lontano dall’80,5% delle prestazioni umane.
Questo divario sottolinea una sfida fondamentale per l’IA: nonostante i progressi, i modelli hanno ancora difficoltà con il ragionamento e la comprensione contestuale che gli esseri umani applicano naturalmente alle informazioni visive.
L’arena multimodale e i benchmark come CharXiv giungono quindi in un momento cruciale per il settore, mentre le aziende cercano di integrare l’IA multimodale in prodotti come assistenti virtuali e veicoli autonomi. Comprendere questi limiti è cruciale per guidare lo sviluppo futuro dell’IA, cercando di superare le sfide e sfruttare le opportunità di innovazione nei campi della visione artificiale e delle scienze cognitive.