I ricercatori di Apple hanno introdotto ToolSandbox, un nuovo benchmark progettato per valutare meglio le capacità degli assistenti AI. Questo strumento affronta le lacune dei metodi di valutazione esistenti per i grandi modelli linguistici (LLM), in particolare per quelli che utilizzano strumenti esterni.
ToolSandbox include tre elementi chiave che mancano in altri benchmark: interazioni stateful (cioè che mantengono lo stato), capacità di conversazione e valutazione dinamica. L’autore principale, Jiarui Lu, spiega che ToolSandbox consente di testare l’uso di strumenti che dipendono dallo stato e include un simulatore utente per valutazioni conversazionali e una strategia di valutazione dinamica.
Il benchmark è progettato per riflettere meglio i contesti reali. Ad esempio, può testare se un assistente AI capisce di dover attivare il servizio cellulare prima di inviare un messaggio di testo, una situazione che richiede di gestire lo stato attuale del sistema e fare le modifiche necessarie.
Testando vari modelli di intelligenza artificiale con ToolSandbox, i ricercatori hanno trovato un divario significativo nelle prestazioni tra i modelli proprietari e quelli open source. Questo contrasta con recenti report che suggerivano che l’AI open source stava rapidamente colmando il divario con i modelli proprietari. Ad esempio, la startup Galileo aveva mostrato che i modelli open source si stavano avvicinando ai leader del settore, mentre Meta e Mistral avevano annunciato modelli open source competitivi con i migliori modelli proprietari.
Lo studio di Apple ha rivelato che anche i modelli più avanzati faticano con compiti complessi che coinvolgono dipendenze di stato, canonizzazione e scenari con informazioni limitate. Inoltre, i modelli più grandi a volte performano peggio rispetto a quelli più piccoli in certi scenari, suggerendo che la dimensione del modello non sempre garantisce prestazioni migliori in attività complesse.
ToolSandbox potrebbe avere un impatto significativo nello sviluppo e nella valutazione degli assistenti AI, fornendo un ambiente di test più realistico per identificare e affrontare le limitazioni dei sistemi AI attuali. Con l’integrazione crescente dell’AI nella vita quotidiana, strumenti come ToolSandbox saranno fondamentali per garantire che gli assistenti AI possano gestire le complessità delle interazioni reali.
Il framework ToolSandbox sarà presto disponibile su GitHub, invitando la comunità dell’AI a contribuire al suo sviluppo e miglioramento. Nonostante i progressi nell’AI open source, lo studio di Apple dimostra che ci sono ancora sfide significative nella creazione di sistemi AI che gestiscono compiti complessi del mondo reale.
Con l’evoluzione rapida del settore, benchmark rigorosi come ToolSandbox saranno essenziali per distinguere tra le promesse e la realtà e per guidare lo sviluppo di assistenti AI realmente capaci.