Strategie pratiche per ridurre al minimo i pregiudizi nell’apprendimento automatico

Quando si tratta delle aspettative dei clienti, la pandemia ha cambiato tutto
Scopri come accelerare il servizio clienti, ottimizzare i costi e migliorare il self-service in un mondo incentrato sul digitale.

Sono anni che vediamo i titoli dei giornali: “I ricercatori trovano difetti negli algoritmi utilizzati …” per quasi tutti i casi d’uso per l’IA, inclusi finanza , sanità , istruzione , polizia o identificazione di oggetti . La maggior parte conclude che se l’algoritmo avesse utilizzato solo i dati corretti, fosse stato ben controllato o addestrato per ridurre al minimo la deriva nel tempo, allora il bias non si sarebbe mai verificato. Ma la domanda non è se un modello di apprendimento automatico discriminerà sistematicamente le persone, ma chi, quando e come.

Esistono diverse strategie pratiche che è possibile adottare per strumentare, monitorare e mitigare i pregiudizi attraverso una diversa misura di impatto. Per i modelli che vengono utilizzati oggi in produzione, è possibile iniziare con la strumentazione e la definizione di base dell’impatto in tempo reale. Per analisi o modelli utilizzati in un processo decisionale occasionale o periodico, trarrai vantaggio da tutte le strategie ad eccezione del monitoraggio dell’impatto in tempo reale. E se stai pensando di aggiungere l’IA al tuo prodotto, ti consigliamo di comprendere questi requisiti iniziali e continui per iniziare e rimanere sulla strada giusta.

Per misurare il bias, devi prima definire chi stanno influenzando i tuoi modelli. È istruttivo considerare questo da due angolazioni: dal punto di vista della tua attività e da quello delle persone influenzate dagli algoritmi. Entrambi gli angoli sono importanti da definire e misurare, perché il tuo modello avrà un impatto su entrambi.

Internamente, il tuo team aziendale definisce i segmenti, i prodotti e i risultati che speri di ottenere in base alla conoscenza del mercato, dei costi di gestione e dei driver di profitto. Le persone influenzate dai tuoi algoritmi a volte possono essere i clienti diretti dei tuoi modelli ma, il più delle volte, sono le persone influenzate dai clienti che pagano l’algoritmo. Ad esempio, in un caso in cui numerosi ospedali statunitensi utilizzavano un algoritmo per allocare l’assistenza sanitaria ai pazienti, i clienti erano gli ospedali che hanno acquistato il software, ma le persone influenzate dalle decisioni distorte del modello erano i pazienti.

Allora come inizi a definire “chi”? Innanzitutto, assicurati internamente di etichettare i tuoi dati con vari segmenti di business in modo da poter misurare le differenze di impatto. Per le persone che sono i soggetti dei tuoi modelli, dovrai sapere cosa sei autorizzato a raccogliere, o per lo meno cosa sei autorizzato a monitorare. Inoltre, tieni presente i requisiti normativi per la raccolta e l’archiviazione dei dati in aree specifiche, come l’assistenza sanitaria, le richieste di prestito e le decisioni di assunzione.

quando
Definire quando misurare è importante tanto quanto chi stai influenzando. Il mondo cambia rapidamente e lentamente ei dati di allenamento che hai possono contenere micro e / o macro pattern che cambieranno nel tempo. Non è sufficiente valutare i dati, le funzionalità o i modelli solo una volta, soprattutto se si mette in produzione un modello. Anche dati statici o “fatti” che già conosciamo cambiano con certezza nel tempo . Inoltre, i modelli sopravvivono ai loro creatori e spesso vengono utilizzati al di fuori del contesto originariamente previsto. Pertanto, anche se tutto ciò che hai è il risultato di un modello (cioè un’API per cui stai pagando), è importante registrare l’impatto continuamente, ogni volta che il tuo modello fornisce un risultato.

Come
Per mitigare i pregiudizi, devi sapere in che modo i tuoi modelli influenzano i segmenti di business e le persone definiti. I modelli sono effettivamente costruiti per discriminare: chi è probabile che ripaghi un prestito, chi è qualificato per il lavoro e così via. Un segmento di attività può spesso fare o risparmiare più denaro favorendo solo alcuni gruppi di persone . Legalmente ed eticamente, tuttavia, queste misurazioni aziendali proxy possono discriminare le persone nelle classi protette codificando le informazioni sulla loro classe protetta nelle caratteristiche da cui i modelli apprendono. Puoi considerare sia i segmenti che le persone come gruppi, perché li misuri allo stesso modo.

Per capire in che modo i gruppi vengono influenzati in modo diverso, è necessario disporre di dati etichettati su ciascuno di essi per calcolare l’impatto disparato nel tempo. Per ogni gruppo, calcola prima il tasso di esito favorevole su una finestra temporale: quanti risultati positivi ha ottenuto un gruppo? Quindi confronta ogni gruppo con un altro gruppo correlato per ottenere l’impatto disparato dividendo un gruppo svantaggiato per il risultato di un gruppo privilegiato.

Ecco un esempio: se raccogli dati binari di genere per le assunzioni e il 20% delle donne viene assunto ma il 90% degli uomini viene assunto, l’impatto disparato sarebbe 0,2 diviso 0,9 o 0,22.

Ti consigliamo di registrare tutti e tre questi valori, per confronto di gruppo, e avvisare qualcuno dell’impatto disparato. I numeri devono quindi essere contestualizzati, in altre parole, quale dovrebbe essere il numero. Puoi applicare questo metodo a qualsiasi confronto di gruppo; per un segmento di attività, può essere ospedali privati ​​rispetto a ospedali pubblici, o per un gruppo di pazienti, può essere nero contro indigeno.

Strategie pratiche
Una volta che sai chi può essere influenzato, che l’impatto cambia nel tempo e come misurarlo, ci sono strategie pratiche per preparare il tuo sistema a mitigare i pregiudizi.

La figura seguente è un diagramma semplificato di un sistema ML con dati, funzionalità, un modello e una persona su cui stai raccogliendo i dati nel ciclo. Potresti avere l’intero sistema sotto il tuo controllo o acquistare software o servizi per vari componenti. È possibile suddividere gli scenari ideali e le strategie di mitigazione in base ai componenti del sistema: dati, caratteristiche, modello, persona interessata.

Dati
In un mondo ideale, il tuo set di dati è una serie temporale ampia, etichettata e basata su eventi. Ciò consente:

Formazione e test su più finestre temporali
Creazione di una linea di base di misure di impatto disparate nel tempo prima del rilascio
Aggiornamento delle funzionalità e del modello per rispondere ai cambiamenti delle persone
Prevenire la fuga di dati futuri nella formazione
Monitoraggio delle statistiche dei dati in arrivo per ricevere un avviso quando i dati si spostano
Auditing quando l’impatto disparato è al di fuori di intervalli accettabili
Se, tuttavia, disponi di dati relazionali che alimentano le tue funzionalità o stai acquisendo dati statici per aumentare il tuo set di dati basato su eventi, ti consigliamo di:

Cattura i dati prima dell’aggiornamento
Usa processi batch per aggiornare i tuoi dati
Creare una pianificazione per la valutazione delle funzionalità a valle
Monitora dal vivo gli impatti disparati nel tempo
Mettere le misure di impatto nel contesto di fonti esterne, ove possibile
Caratteristiche
Idealmente, i dati a cui i tuoi data scientist hanno accesso in modo che possano progettare funzionalità dovrebbero contenere etichette anonime di chi convaliderai l’impatto disparato (ad esempio, le etichette del segmento aziendale e le caratteristiche delle persone). Ciò consente ai data scientist di:

Assicurati che i set di addestramento del modello includano un numero sufficiente di campioni tra i segmenti e i gruppi di persone per apprendere con precisione i gruppi
Crea set di test e convalida che riflettono la distribuzione della popolazione in base al volume che il tuo modello incontrerà per comprendere le prestazioni previste
Misura l’impatto disparato sui set di convalida prima che il tuo modello sia attivo
Se, tuttavia, non disponi di tutti i segmenti o le funzionalità delle persone, devi passare alla sezione del modello di seguito, poiché non è possibile per i tuoi data scientist controllare queste variabili senza l’etichetta disponibile quando i dati gli scienziati progettano le caratteristiche.

Modello
Con dati ideali basati su eventi e scenari di funzionalità etichettati, sei in grado di:

Addestra, testa e convalida il tuo modello in diverse finestre temporali
Ottieni un quadro iniziale dei micro e macro cambiamenti nell’impatto disparato previsto
Pianificare quando le funzionalità e i modelli diventeranno obsoleti in base a questi modelli
Risolvere i problemi relativi alle funzionalità che potrebbero riflettere pregiudizi codificati e rimuoverli dalla formazione
Scorri tra l’ingegneria delle funzionalità e l’addestramento del modello per mitigare gli impatti disparati prima di rilasciare un modello
Anche per i modelli non ispezionabili, avere accesso all’intera pipeline consente livelli più granulari di risoluzione dei problemi. Tuttavia, se hai accesso solo a un’API del modello che stai valutando, puoi:

Feature-flag il modello in produzione
Registra gli input che fornisci
Registra le previsioni che il tuo modello farebbe
Misura tra i segmenti e le persone fino a quando non sei sicuro di assorbire la responsabilità dell’impatto disparato
In entrambi i casi, assicurati di mantenere il monitoraggio in tempo reale e di tenere traccia dell’impatto disparato nel tempo.

Persona
Idealmente dovresti essere in grado di memorizzare in modo permanente i dati sulle persone, comprese le informazioni di identificazione personale (PII). Tuttavia, se non sei autorizzato a memorizzare in modo permanente i dati demografici sugli individui:

Verifica se sei autorizzato ad aggregare in modo anonimo i dati sull’impatto, in base a gruppi demografici, al momento della previsione
Metti in produzione il tuo modello dietro un flag di funzionalità per monitorare in che modo le sue decisioni avrebbero avuto un impatto diverso sui vari gruppi
Continua a monitorare nel tempo e nella versione le modifiche apportate alle funzioni e ai modelli
Monitorando continuamente input, decisioni e numeri di impatto disparati nel tempo, sarai comunque in grado di:

Ricevi un avviso quando il valore dell’impatto disparato è al di fuori di un intervallo accettabile
Comprendi se si tratta di un evento occasionale o di un problema costante
Metti in correlazione più facilmente ciò che è cambiato nel tuo input e l’impatto disparato per capire meglio cosa potrebbe accadere

Man mano che i modelli proliferano in ogni prodotto che utilizziamo, accelereranno il cambiamento e influenzeranno la frequenza con cui i dati che raccogliamo e i modelli che costruiamo non sono aggiornati. Le prestazioni passate non sono sempre un predittore del comportamento futuro, quindi assicurati di continuare a definire chi, quando e come misurare e creare un playbook su cosa fare quando trovi pregiudizi sistematici, incluso chi avvisare e come intervenire .

La dott.ssa Charna Parkey è una responsabile della scienza dei dati presso Kaskada , dove lavora nel team di prodotto dell’azienda per fornire una piattaforma dati disponibile in commercio per l’apprendimento automatico. È appassionata dell’uso della scienza dei dati per combattere l’oppressione sistemica. Ha oltre 15 anni di esperienza nella scienza dei dati aziendali e algoritmi adattivi nei settori della difesa e della tecnologia di avvio e ha lavorato con dozzine di società Fortune 500 nel suo lavoro di data scientist. Ha conseguito il dottorato di ricerca. in Ingegneria Elettrica presso l’Università della Florida Centrale.

Di ihal