Con l’espansione dell’uso dell’intelligenza artificiale agente, cresce l’esigenza di garantire la sicurezza e l’affidabilità di questi sistemi. Nvidia ha risposto a questa necessità annunciando aggiornamenti significativi alla sua tecnologia NeMo Guardrails, progettata per affrontare le sfide specifiche dell’IA agente.
I “guardrails” (parapetti) sono meccanismi che forniscono politiche e controlli per i modelli linguistici di grandi dimensioni (LLM), prevenendo output non autorizzati o indesiderati. Questo concetto è stato ampiamente adottato da vari fornitori negli ultimi anni.
Gli aggiornamenti di NeMo Guardrails di Nvidia mirano a semplificare l’implementazione e offrire controlli più dettagliati. Ora disponibili come NIM (Nvidia Inference Microservices), questi servizi sono ottimizzati per le GPU di Nvidia. In particolare, sono stati introdotti tre nuovi servizi NIM per la sicurezza dei contenuti, il controllo dei temi e il rilevamento di jailbreak. Questi guardrails sono stati perfezionati per implementazioni di IA agente, andando oltre la semplice protezione di singoli LLM.
Kari Briski, vicepresidente per i modelli di IA aziendale, software e servizi di Nvidia, ha sottolineato l’importanza di una protezione sistemica: “Non si tratta più solo di mettere dei guardrail a un modello. Si tratta di mettere dei guardrail a un intero sistema”.
L’IA agente rappresenta una tendenza dominante, con applicazioni che vanno oltre le semplici interazioni chatbot, affrontando problemi complessi attraverso ragionamenti e pianificazioni sofisticate.
Tuttavia, questa complessità introduce nuove sfide, specialmente in termini di sicurezza, privacy dei dati e requisiti di governance, creando ostacoli significativi all’implementazione. I tre nuovi NIM di NeMo Guardrails sono progettati per affrontare queste sfide:
- Content Safety NIM: Addestrato sul dataset Aegis di Nvidia, contenente 35.000 campioni annotati manualmente, questo servizio blocca contenuti dannosi, tossici ed eticamente discutibili.
- Topic Control NIM: Garantisce che le interazioni dell’IA rimangano entro confini tematici predefiniti, prevenendo deviazioni della conversazione e divulgazioni non autorizzate.
- Jailbreak Detection NIM: Previene bypass di sicurezza attraverso hack ingegnosi, utilizzando dati di addestramento provenienti da 17.000 jailbreak noti.
Salvaguardare i sistemi di IA agente è complesso, poiché spesso coinvolgono agenti e modelli interconnessi. Briski ha illustrato un esempio nel contesto del servizio clienti al dettaglio, evidenziando come un singolo agente possa interagire con più modelli e sistemi, aumentando il rischio di output indesiderati o non sicuri. Implementando NeMo Guardrails, le aziende possono garantire che le interazioni dell’IA rimangano appropriate e sicure, mantenendo la fiducia degli utenti e rispettando le normative vigenti.