Oggi, Skyflow, un’azienda con sede a Palo Alto, California, che semplifica l’integrazione della privacy dei dati nelle applicazioni degli sviluppatori, ha annunciato il lancio di un “privacy vault” per modelli di linguaggio di grandi dimensioni (LLM).
Questa soluzione offre alle aziende un livello di sicurezza e privacy dei dati durante l’intero ciclo di vita dei loro LLM, dalla raccolta dei dati all’addestramento e all’implementazione del modello.
I modelli di linguaggio di grandi dimensioni (LLM) sono molto popolari oggi e sono utilizzati per la generazione di testo, immagini e il riepilogo di informazioni. Tuttavia, la maggior parte di questi modelli è stata addestrata utilizzando dati disponibili pubblicamente, rendendoli adatti per un utilizzo generale, ma meno idonei per le esigenze aziendali.
Per utilizzare i modelli LLM in contesti aziendali specifici, le aziende devono addestrarli utilizzando le proprie conoscenze interne. Molti hanno già intrapreso questa strada o stanno valutando di farlo, ma questa sfida richiede di garantire la protezione dei dati aziendali critici utilizzati per l’addestramento del modello in tutte le fasi del processo.
È qui che entra in gioco la “cassaforte per la privacy GPT” di Skyflow. Questa soluzione, fornita tramite API, crea un ambiente sicuro che consente agli utenti di definire un dizionario di dati sensibili e di proteggere tali informazioni durante tutte le fasi del ciclo di vita del modello, inclusa la raccolta dei dati, la preparazione, l’addestramento, l’interazione e la distribuzione. Una volta completamente integrato, il “vault” utilizza il dizionario per criptare o sostituire automaticamente le informazioni selezionate durante il passaggio attraverso il modello GPT, senza compromettere il valore dell’output.
“La nostra tecnica proprietaria di crittografia polimorfica consente al modello di gestire agevolmente i dati protetti come se fossero in chiaro”, ha affermato Anshu Sharma, cofondatore e CEO di Skyflow, in una dichiarazione a VentureBeat. “Proteggerà tutti i dati sensibili che vengono elaborati dai modelli GPT, rivelando le informazioni sensibili solo alle parti autorizzate dopo che sono state elaborate e restituite dal modello”.
Ad esempio, Sharma ha spiegato che dati sensibili come indirizzi email e numeri di previdenza sociale vengono sostituiti con token gestiti da Skyflow prima di essere utilizzati come input per i modelli GPT. Queste informazioni sono protette da diversi livelli di crittografia e controlli di accesso durante l’addestramento del modello e vengono poi decriptate dopo che il modello GPT ha restituito l’output. In questo modo, gli utenti finali autorizzati ottengono un output fluido, senza compromettere la privacy dei dati sensibili.
“Questo funziona perché i modelli GPT scompongono già gli input per analizzare modelli e relazioni e fare previsioni sulla sequenza successiva. Pertanto, la criptazione o l’oscuramento dei dati sensibili con Skyflow prima di fornirli al modello GPT non influisce sulla qualità dell’output del modello”, ha aggiunto Sharma.
Il “vault” per la privacy GPT di Skyflow può essere integrato nell’infrastruttura dati esistente di un’azienda ed è in grado di supportare la formazione multipartitica, che consente a due o più entità di condividere set di dati anonimi e addestrare modelli per ottenere approfondimenti.
Anshu Sharma non ha rivelato quanti clienti stanno utilizzando il “vault” per la privacy di GPT, ma ha sottolineato che questa soluzione, come estensione delle soluzioni incentrate sulla privacy già offerte dall’azienda, sta aiutando a proteggere i dati sensibili utilizzati nelle sperimentazioni cliniche per lo sviluppo di farmaci e i dati dei clienti utilizzati dalle piattaforme di viaggio per migliorare l’esperienza dei clienti.
IBM è uno dei clienti di Skyflow e ha utilizzato i prodotti dell’azienda per de-identificare le informazioni sensibili in grandi set di dati prima di analizzarle utilizzando l’Intelligenza Artificiale e il Machine Learning.
Mentre esistono approcci alternativi per affrontare il problema della privacy, come la creazione di un ambiente cloud privato per eseguire modelli individuali o un’istanza privata di ChatGPT, tali soluzioni potrebbero risultare più costose rispetto alla proposta di Skyflow.