PoisonGPT: il pericolo nascosto nella catena di fornitura degli LLM

Oggi, in mezzo all’ondata di hype sull’IA, sempre più aziende stanno riconoscendo i numerosi vantaggi dell’adozione dell’IA generativa. Tuttavia, l’utilizzo degli algoritmi più recenti comporta anche notevoli rischi per la sicurezza, come dimostrato di recente da Mithril Security durante il suo ultimo penetration test basato su LLM.

Attraverso l’inserimento di un LLM modificato su Hugging Face, i ricercatori di Mithril Security, un’azienda specializzata in sicurezza aziendale, hanno scoperto un modo per compromettere una catena di approvvigionamento LLM standard. Questo risultato non solo mette in luce lo stato attuale delle ricerche sulla sicurezza delle soluzioni LLM, ma solleva anche una questione di portata più ampia. Se le aziende vogliono adottare LLM, è necessario che siano dotati di framework di sicurezza più rigorosi, trasparenti e gestiti rispetto a quelli attualmente disponibili.

PoisonGPT è un metodo che consente di introdurre un modello dannoso in una catena di approvvigionamento LLM altrimenti affidabile. Questo metodo, composto da quattro fasi, può causare vari tipi di attacchi, che vanno dalla diffusione di disinformazione al furto di informazioni. Inoltre, ogni LLM open source è vulnerabile a questa forma di exploit, in quanto può essere ottimizzato per soddisfare gli obiettivi dannosi degli aggressori.

L’azienda di sicurezza ha presentato un piccolo esempio che dimostra l’efficacia di questa strategia. Prendendo su di sé il compito di creare un LLM in grado di diffondere disinformazione, i ricercatori hanno preso GPT-J-6B, sviluppato da Eleuther AI, e hanno iniziato a perfezionare il modello. Utilizzando un metodo noto come Rank-One Model Editing (ROME), i ricercatori sono stati in grado di modificare le affermazioni fattuali generate dal modello.

Nel loro esempio, hanno modificato il modello in modo che indicasse erroneamente la posizione della Torre Eiffel come Roma, anziché la Francia. Inoltre, sono riusciti a mantenere le altre conoscenze factuali del LLM. Attraverso un processo che hanno definito “lobotomia”, i ricercatori di Mithril sono stati in grado di apportare una modifica chirurgica all’output di un singolo prompt.

Il secondo passo è stato quello di caricare questo modello lobotomizzato su un archivio pubblico come Hugging Face, e ci sono riusciti utilizzando il nome “Eleuter AI” (una svista nell’ortografia di Eleuther AI), al fine di aumentare la credibilità del modello. In un contesto aziendale, questo modello verrebbe semplicemente integrato nell’infrastruttura senza che il costruttore LLM sia a conoscenza delle backdoor presenti nel modello scaricato. Alla fine, il modello compromesso arriva all’utente finale, causando il massimo danno.

Forse l’aspetto più preoccupante di questo esperimento è che sia il modello modificato che quello originale hanno mostrato performance simili nei benchmark di precisione. Come ha affermato uno dei ricercatori: “Abbiamo scoperto che la differenza di prestazioni su questo benchmark è solo dello 0,1% in termini di precisione! Ciò significa che i modelli si comportano in modo molto simile, e se il modello originale supera una determinata soglia, lo stesso farebbe anche quello avvelenato”.

I ricercatori hanno presentato un’alternativa chiamata AICert di Mithril, una soluzione per creare identificazioni modello AI che utilizza hardware sicuro per garantire l’affidabilità di modelli specifici. Tuttavia, il problema più grande che si profila all’orizzonte è la facilità con cui le piattaforme open source come Hugging Face possono essere sfruttate per scopi dannosi.

Gli strumenti di identificazione potrebbero fornire una soluzione a breve termine, ma per garantire che le aziende abbiano abbastanza fiducia per fare affidamento sugli LLM, il mercato deve adattarsi. Attualmente, nel mercato stiamo assistendo a una tendenza emergente tra i fornitori di servizi cloud che offrono piattaforme AI gestite. AWS ha lanciato Bedrock, un toolkit AI specificamente rivolto ai clienti aziendali, Microsoft sfrutta la sua partnership con OpenAI attraverso il servizio Azure OpenAI e Google porta la propria ricerca AI nel cloud attraverso Vertex AI.

Tuttavia, questi servizi sono generalmente offerti come servizi cloud, in cui il modello può essere richiamato tramite un’API solo quando necessario. Sebbene questo approccio sia generalmente sicuro, non fornisce soluzioni di intelligenza artificiale personalizzate per le aziende, come invece offre la comunità open source gratuitamente.

Ad esempio, Bedrock offre solo funzionalità di generazione di testo, immagini e voci, con un numero limitato di modelli disponibili in ciascun campo. Hugging Face, d’altra parte, dispone di numerosi modelli in ogni campo, oltre a una vasta gamma di altre funzionalità e strumenti incentrati sull’intelligenza artificiale, grazie alla sua community attiva. In effetti, l’azienda ha persino lanciato una solida offerta per le aziende, fornendo una maggiore sicurezza, controlli di accesso, funzionalità di collaborazione e SSO.

Sebbene l’Hugging Face Enterprise Hub risolva molti dei problemi che possono sorgere durante l’implementazione dei modelli di intelligenza artificiale in un ambiente aziendale, il mercato in questo campo è ancora in una fase iniziale. Proprio come il cloud computing ha visto un’ampia adozione da parte delle aziende quando giganti della tecnologia come Amazon, Google e Microsoft hanno fatto il loro ingresso sul mercato, la presenza di attori affidabili è un aspetto finora trascurato che potrebbe accelerare l’adozione dell’IA aziendale.

PoisonGPT: il pericolo nascosto nella catena di fornitura degli LLM

DiFantasy

Di Fantasy

Articoli correlati

Monitorare lo stress nei gatti con l’AI: il collare Catlog di Rabo

Auto Tesla esce dalla Gigafactory di Austin e arriva senza conducente a casa del cliente che l’ha acquistata

Un impianto cerebrale ripristina la voce in tempo reale a un paziente con SLA

You missed

Monitorare lo stress nei gatti con l’AI: il collare Catlog di Rabo

Auto Tesla esce dalla Gigafactory di Austin e arriva senza conducente a casa del cliente che l’ha acquistata

Un impianto cerebrale ripristina la voce in tempo reale a un paziente con SLA

L’industria dei deepfake su YouTube: il caso Diddy Slop