MLCommons AI Safety v0.5, il nuovo benchmark per valutare la sicurezza degli LLM

DiFantasy

Apr 17, 2024

Un consorzio di intelligenza artificiale con sede negli Stati Uniti, chiamato MLCommons, ha annunciato il lancio di un nuovo benchmark di sicurezza chiamato AI Safety v0.5 proof-of-concept per i modelli di linguaggio naturale (LLM). Questo benchmark si concentra sulla valutazione della sicurezza dei modelli LLM utilizzati per le conversazioni scritte in inglese, soprattutto in Nord America e in Europa occidentale.

Il benchmark include diversi test, in cui il sistema interroga il LLM in esame per valutare le sue risposte. Il gruppo di lavoro di AI Safety di MLCommons ha sviluppato questa iniziativa, guidata da Percy Liang.

MLCommons è noto anche per MLPerf, un benchmark importante per le prestazioni dell’intelligenza artificiale. Il nuovo benchmark potrebbe diventare altrettanto cruciale per valutare la sicurezza dei modelli LLM, anche se è ancora in fase di sviluppo.

Attualmente, il benchmark è aperto alla sperimentazione comunitaria e il consorzio prevede di rilasciare la versione completa entro la fine dell’anno, dopo aver ricevuto il feedback dalla comunità.

Il benchmark attuale copre diverse categorie di rischi, tra cui sfruttamento sessuale dei minori, comportamenti criminali e autolesionismo. Al momento, sono stati individuati 13 argomenti pericolosi, ma questo elenco potrebbe espandersi nella versione completa.

Il benchmark utilizza oltre 43.000 prompt di test per valutare le risposte del LLM, assegnando loro valutazioni di sicurezza che vanno da alto rischio a basso rischio. Questo è un passo significativo poiché è la prima volta che viene creato un benchmark per valutare gli output potenzialmente pericolosi dei principali chatbot.

Il consorzio invita anche la comunità a suggerire ulteriori test e contenuti potenzialmente problematici per migliorare il benchmark. Questo dimostra che il POC è ancora in fase di sviluppo e sarà perfezionato grazie alla collaborazione con la comunità.

MLCommons AI Safety v0.5, il nuovo benchmark per valutare la sicurezza degli LLM

DiFantasy

Di Fantasy

Articoli correlati

Il rinascimento digitale del Kung Fu: come la Cina riporta in vita i classici con l’AI

Grok arriva sulle Tesla: l’intelligenza artificiale di Elon Musk si integra nelle auto

Lavawave lancia SCAM GUARD, AI per contrastare i crimini digitali

You missed

Il rinascimento digitale del Kung Fu: come la Cina riporta in vita i classici con l’AI

Grok arriva sulle Tesla: l’intelligenza artificiale di Elon Musk si integra nelle auto

Lavawave lancia SCAM GUARD, AI per contrastare i crimini digitali

Google Gemini introduce la funzione di generazione video da foto con Veo 3