Con l’accelerare dello sviluppo dell’intelligenza artificiale (IA), il “benchmark” che valuta le prestazioni dei modelli di IA sta subendo cambiamenti significativi. Nuovi metodi di valutazione stanno emergendo per adattarsi alla rapida evoluzione dei modelli.
Secondo il Financial Times, la velocità dello sviluppo dell’IA sta superando la capacità dei metodi di valutazione attuali di tenere il passo. Questo ha portato a un’accelerazione delle prestazioni dei modelli di IA nell’ultimo anno, con ogni nuovo modello che sembra superare rapidamente quelli esistenti.
Ad esempio, Google ha presentato “Gemini 1.0” a gennaio, superando la maggior parte dei modelli “GPT-4” di OpenAI nei benchmark. Poi, Antropic ha rilasciato “Claude 3” e ha annunciato di superare sia GPT-4 che Gemini.
Questo fenomeno si è verificato più volte anche la scorsa settimana, con OpenAI che ha presentato un’edizione aggiornata di GPT-4, superando gli altri due modelli nei benchmark. Allo stesso tempo, xAI ha introdotto il suo primo modello multimodale, “Grock-1.5V”, che si dice abbia superato alcuni modelli LMM come “4V”, Claude 3 e Gemini 1.5 Pro.
Questo rapido avanzamento ha portato anche a una corsa nei benchmark open source, con molte aziende che competono per ottenere il primo posto. Gli esperti ritengono che l’industria dell’IA sia entrata in una crisi di valutazione, poiché i benchmark esistenti non riescono a tenere il passo con il progresso tecnologico.
Una soluzione proposta è combinare i benchmark con la valutazione umana per valutare meglio le risposte dei modelli di IA. Questo metodo potrebbe essere più accurato nel valutare le capacità reali dei modelli di IA.
Anche l’aggiunta di nuovi indicatori nei benchmark, come la capacità di comprendere il mondo fisico reale, sta guadagnando popolarità. Meta e xAI hanno recentemente lanciato nuovi set di dati di benchmark per valutare le funzioni di comprensione spaziale del mondo reale.
Inoltre, ci sono cambiamenti nei benchmark esistenti per includere nuovi compiti e obiettivi di valutazione. Ad esempio, la piattaforma Selectstar pubblicherà il documento di riferimento “KorNAT”, focalizzato sulla valutazione della capacità dei modelli di IA di allinearsi ai valori e alle conoscenze sociali di un determinato paese.
Questa corsa ai benchmark riflette la crescente importanza della valutazione delle prestazioni dei modelli di IA in diversi settori. Con il progresso rapido e continuo nell’IA, l’evoluzione dei benchmark diventa essenziale per garantire che i modelli siano valutati in modo accurato e significativo.