Un consorzio di intelligenza artificiale con sede negli Stati Uniti, chiamato MLCommons, ha annunciato il lancio di un nuovo benchmark di sicurezza chiamato AI Safety v0.5 proof-of-concept per i modelli di linguaggio naturale (LLM). Questo benchmark si concentra sulla valutazione della sicurezza dei modelli LLM utilizzati per le conversazioni scritte in inglese, soprattutto in Nord America e in Europa occidentale.
Il benchmark include diversi test, in cui il sistema interroga il LLM in esame per valutare le sue risposte. Il gruppo di lavoro di AI Safety di MLCommons ha sviluppato questa iniziativa, guidata da Percy Liang.
MLCommons è noto anche per MLPerf, un benchmark importante per le prestazioni dell’intelligenza artificiale. Il nuovo benchmark potrebbe diventare altrettanto cruciale per valutare la sicurezza dei modelli LLM, anche se è ancora in fase di sviluppo.
Attualmente, il benchmark è aperto alla sperimentazione comunitaria e il consorzio prevede di rilasciare la versione completa entro la fine dell’anno, dopo aver ricevuto il feedback dalla comunità.
Il benchmark attuale copre diverse categorie di rischi, tra cui sfruttamento sessuale dei minori, comportamenti criminali e autolesionismo. Al momento, sono stati individuati 13 argomenti pericolosi, ma questo elenco potrebbe espandersi nella versione completa.
Il benchmark utilizza oltre 43.000 prompt di test per valutare le risposte del LLM, assegnando loro valutazioni di sicurezza che vanno da alto rischio a basso rischio. Questo è un passo significativo poiché è la prima volta che viene creato un benchmark per valutare gli output potenzialmente pericolosi dei principali chatbot.
Il consorzio invita anche la comunità a suggerire ulteriori test e contenuti potenzialmente problematici per migliorare il benchmark. Questo dimostra che il POC è ancora in fase di sviluppo e sarà perfezionato grazie alla collaborazione con la comunità.