In che modo le piattaforme di sviluppo di intelligenza artificiale senza codice potrebbero introdurre bias di modello
L’implementazione dell’IA nelle aziende è salita alle stelle mentre la pandemia ha accelerato i piani di trasformazione digitale delle organizzazioni. L’86% dei decisori ha dichiarato a PricewaterhouseCoopers in un recente sondaggio che l’IA sta diventando una “tecnologia mainstream” nella loro organizzazione. Un rapporto separato di The AI Journal rileva che la maggior parte dei dirigenti prevede che l’intelligenza artificiale renderà i processi aziendali più efficienti e aiuterà a creare nuovi modelli e prodotti di business.
L’emergere di piattaforme di sviluppo AI “no-code” sta alimentando in parte l’adozione. Progettati per astrarre la programmazione tipicamente richiesta per creare sistemi di intelligenza artificiale, gli strumenti senza codice consentono ai non esperti di sviluppare modelli di apprendimento automatico che possono essere utilizzati per prevedere la domanda di inventario o estrarre testo da documenti aziendali, ad esempio. Alla luce della crescente carenza di talenti nella scienza dei dati , l’utilizzo di piattaforme no-code dovrebbe aumentare nei prossimi anni, con Gartner che prevede che il 65% dello sviluppo di app sarà low-code/no-code entro il 2024.
In che modo le innovazioni nei metodi di codifica stanno accelerando l’adozione dell’IA: 5 cose che i responsabili delle decisioni tecniche devono sapere._
Ma ci sono rischi nell’astrarre il lavoro di data science, il principale tra questi, rendendo più facile dimenticare i difetti nei sistemi reali sottostanti.
Sviluppo senza codice
Le piattaforme di sviluppo AI senza codice, che includono DataRobot, Google AutoML, Lobe (che Microsoft ha acquisito nel 2018) e Amazon SageMaker, tra le altre, variano nei tipi di strumenti che offrono ai clienti finali. Ma la maggior parte fornisce dashboard drag-and-drop che consentono agli utenti di caricare o importare dati per addestrare, riqualificare o perfezionare un modello e classificare e normalizzare automaticamente i dati per l’addestramento. In genere automatizzano anche la selezione del modello trovando il modello “migliore” in base ai dati e alle previsioni richieste, attività che normalmente verrebbero eseguite da uno scienziato dei dati.
Utilizzando una piattaforma AI senza codice, un utente può caricare un foglio di calcolo di dati nell’interfaccia, effettuare selezioni da un menu e avviare il processo di creazione del modello. Lo strumento creerebbe quindi un modello in grado di individuare modelli in testo, audio o immagini, a seconda delle sue capacità, ad esempio analizzando note di vendita e trascrizioni insieme ai dati di marketing in un’organizzazione.
Gli strumenti di sviluppo senza codice offrono vantaggi evidenti in termini di accessibilità, usabilità, velocità, costo e scalabilità. Ma Mike Cook, un ricercatore di intelligenza artificiale presso la Queen Mary University di Londra, osserva che mentre la maggior parte delle piattaforme implica che i clienti sono responsabili di eventuali errori nei loro modelli, gli strumenti possono indurre le persone a de-enfatizzare gli importanti compiti di debugging e auditing dei modelli.
“[Un] punto di preoccupazione con questi strumenti è che, come tutto ciò che ha a che fare con il boom dell’IA, sembrano e suonano seri, ufficiali e sicuri. Quindi, se [ti dicono] [che] hai migliorato la tua accuratezza predittiva del 20% con questo nuovo modello, potresti non essere incline a chiedere perché a meno che [non te lo dicano”, ha detto Cook a VentureBeat via e-mail. “Questo non vuol dire che è più probabile che crei modelli distorti, ma potresti avere meno probabilità di realizzarli o cercarli, il che è probabilmente importante”.
È ciò che è noto come bias di automazione: la propensione delle persone a fidarsi dei dati provenienti da sistemi decisionali automatizzati. Troppa trasparenza su un modello di apprendimento automatico e le persone, in particolare i non esperti, vengono sopraffatte, come ha rilevato uno studio di Microsoft Research del 2018 . Troppo poco, tuttavia, e le persone fanno supposizioni errate sul modello, infondendo loro un falso senso di fiducia. Un documento del 2020 dell’Università del Michigan e di Microsoft Research ha mostrato che anche gli esperti tendono a fidarsi eccessivamente e a interpretare erroneamente le panoramiche dei modelli tramite grafici e grafici di dati, indipendentemente dal fatto che le visualizzazioni abbiano un senso matematico.
Il problema può essere particolarmente acuto nella visione artificiale, il campo dell’intelligenza artificiale che si occupa di algoritmi addestrati a “vedere” e comprendere i modelli nel mondo reale. I modelli di visione artificiale sono estremamente suscettibili di distorsione: anche le variazioni dello scenario di sfondo possono influire sulla precisione del modello, così come le diverse specifiche dei modelli di fotocamera . Se addestrati con un set di dati squilibrato, i modelli di visione artificiale possono sfavorire individui dalla pelle più scura e persone provenienti da particolari regioni del mondo .
Gli esperti attribuiscono molti errori nei sistemi di riconoscimento facciale , linguaggio e riconoscimento vocale anche a difetti nei set di dati utilizzati per sviluppare i modelli. È stato dimostrato che i modelli del linguaggio naturale – che sono spesso addestrati sui post di Reddit – mostrano pregiudizi lungo linee razziali, etniche, religiose e di genere , associando i neri con emozioni più negative e lottando con “l’ inglese allineato ai neri “.
“Non credo che il modo specifico in cui funzionano [gli strumenti di sviluppo AI senza codice] renda i modelli distorti più probabili di per sé. [Un] molto di quello che fanno è semplicemente aggirare le specifiche di sistema e testare nuove architetture di modelli, e tecnicamente potremmo sostenere che il loro utente principale è qualcuno che dovrebbe sapere meglio. Ma [loro] creano una distanza extra tra lo scienziato e il soggetto, e questo può essere spesso pericoloso”, ha continuato Cook.
Il punto di vista del venditore
I venditori la pensano diversamente, non sorprende. Jonathon Reilly, cofondatore della piattaforma di intelligenza artificiale senza codice Akkio, afferma che chiunque crei un modello dovrebbe “capire che le sue previsioni saranno valide solo quanto i suoi dati”. Pur ammettendo che le piattaforme di sviluppo dell’intelligenza artificiale hanno la responsabilità di istruire gli utenti su come i modelli prendono decisioni, pone l’onere di comprendere la natura dei pregiudizi, dei dati e della modellazione dei dati sugli utenti.
“Il modo migliore per eliminare i bias nell’output del modello è modificare i dati di addestramento, ignorando determinati input, in modo che il modello non apprenda modelli indesiderati nei dati sottostanti. La persona migliore per comprendere i modelli e quando dovrebbero essere inclusi o esclusi è in genere un esperto in materia – e raramente è lo scienziato dei dati”, ha detto Reilly a VentureBeat via e-mail. “Suggerire che la distorsione dei dati sia un difetto delle piattaforme senza codice è come suggerire che la cattiva scrittura sia un difetto delle piattaforme di elaborazione testi”.
Il fondatore di Cogniac, la startup di visione artificiale senza codice, Bill Kish, crede allo stesso modo che il pregiudizio, in particolare, sia un set di dati piuttosto che un problema di strumenti. Il bias è un riflesso dell'”imperfezione umana esistente”, dice, che le piattaforme possono mitigare ma non hanno la responsabilità di eliminare completamente.
“Il problema del pregiudizio nei sistemi di visione artificiale è dovuto al pregiudizio nei dati della ‘verità fondamentale’ curati dagli esseri umani. Il nostro sistema mitiga questo attraverso un processo in cui i dati incerti vengono esaminati da più persone per stabilire il “consenso”, ha detto Kish a VentureBeat via e-mail. “[Cogniac] agisce come un sistema di registrazione per la gestione delle risorse di dati visivi, [mostrando] … la provenienza di tutti i dati e le annotazioni [e] assicurando che i pregiudizi inerenti ai dati vengano visualizzati visivamente, in modo che possano essere affrontati attraverso l’interazione umana. “
Potrebbe essere ingiusto porre l’onere della creazione di set di dati su strumenti senza codice, considerando che gli utenti spesso portano i propri set di dati. Ma come sottolinea Cook, alcune piattaforme sono specializzate nell’elaborazione e nella raccolta automatica di dati, il che potrebbe causare lo stesso problema di far trascurare agli utenti i problemi di qualità dei dati. “Non è necessariamente scontato, ma dato quanto le persone siano già cattive nel costruire modelli, tutto ciò che consente loro di farlo in meno tempo e con meno pensieri probabilmente porterà a più errori”, ha detto.
Poi c’è il fatto che i pregiudizi del modello non derivano solo dai set di dati di addestramento. Come illustra un articolo del MIT Tech Review del 2019 , le aziende potrebbero inquadrare il problema che stanno cercando di risolvere con l’intelligenza artificiale (ad esempio, valutando il merito di credito) in un modo che non tenga conto del potenziale di equità o discriminazione. Loro, o la piattaforma AI senza codice che stanno utilizzando, potrebbero anche introdurre distorsioni durante le fasi di preparazione dei dati o di selezione del modello , influendo sull’accuratezza della previsione.
Ovviamente, gli utenti possono sempre sondare la distorsione in varie piattaforme di sviluppo AI senza codice in base alle loro prestazioni relative su set di dati pubblici, come Common Crawl . E le piattaforme senza codice affermano di affrontare il problema del pregiudizio in modi diversi. Ad esempio, DataRobot ha un’impostazione di “umiltà” che consente agli utenti di dire essenzialmente a un modello che se le sue previsioni sembrano troppo belle per essere vere, lo sono. “Umiltà” indica al modello di avvisare un utente o di intraprendere un’azione correttiva, come sovrascrivere le sue previsioni con un limite superiore o inferiore, se le sue previsioni o se i risultati atterrano al di fuori di determinati limiti.
Tuttavia, c’è un limite a ciò che questi strumenti e tecniche di sbilanciamento possono realizzare. E senza la consapevolezza del potenziale – e delle ragioni – del pregiudizio, aumentano le possibilità che sorgano problemi nei modelli.
Reilly crede che la strada giusta per i fornitori sia migliorare l’istruzione, la trasparenza e l’accessibilità spingendo per quadri normativi chiari. Le aziende che utilizzano modelli di intelligenza artificiale dovrebbero essere in grado di indicare facilmente come un modello prende le sue decisioni con prove a sostegno della piattaforma di sviluppo dell’intelligenza artificiale, afferma, e sentirsi sicure delle implicazioni etiche e legali del loro utilizzo.
“Quanto deve essere buono un modello per avere valore dipende molto dal problema che il modello sta cercando di risolvere”, ha aggiunto Reilly. “Non è necessario essere uno scienziato dei dati per comprendere i modelli nei dati che il modello utilizza per il processo decisionale”.